행동 중심 지표
단순한 정답률을 넘어 시스템이 실제 환경에서 어떻게 상호작용하고 도구를 사용하는지 등 구체적인 행동 양식을 측정하는 지표이다. 에이전트의 실전 성능을 평가하는 데 적합하다.