에이전트 평가
AI 에이전트가 주어진 작업을 얼마나 정확하고 안전하게 수행하는지 측정하는 프로세스이다. 단순히 텍스트 생성 품질을 넘어 도구 사용, 계획 수립, 맥락 유지 등 복합적인 능력을 검증한다.