행동 중심 지표
단순한 정답률을 넘어 시스템이 실제 환경에서 어떻게 상호작용하고 도구를 사용하는지 등 구체적인 행동 양식을 측정하는 지표이다. 에이전트의 실전 성능을 평가하는 데 적합하다.
벤치마크 점수가 전부는 아니다: 실전 AI 에이전트 성능을 측정하는 3대 핵심 지표