에이전트 벤치마크
AI가 스스로 계획을 수립하고 외부 도구를 사용하여 다단계의 복잡한 작업을 자율적으로 완수하는 능력을 평가하는 지표이다. 단순 텍스트 생성을 넘어 실무 환경에서의 활용도를 측정한다.