에이전트 평가
AI 에이전트가 주어진 목표를 달성하기 위해 수행하는 일련의 과정이 얼마나 정확하고 효율적인지 측정하는 프로세스이다. 단순히 최종 답변의 정답 여부만 확인하는 것이 아니라, 도구 호출의 적절성과 실행 단계의 최적성 등을 종합적으로 판단하여 에이전트의 신뢰성을 높이는 데 필수적이다.