에이전트 평가(agent-evals)이란 무엇인가요?

Question

Accepted Answer

AI 에이전트가 주어진 작업을 얼마나 정확하고 안전하게 수행하는지 측정하는 프로세스이다. 단순히 텍스트 생성 품질을 넘어 도구 사용, 계획 수립, 맥락 유지 등 복합적인 능력을 검증한다.

agent-evals