tau2 벤치마크
실제 기업 환경의 복잡한 작업을 시뮬레이션하여 AI 에이전트의 성능을 측정하는 도구이다. 에이전트가 실제 워크로드를 얼마나 정확하게 처리하는지 수치화하여 개선 효과를 객관적으로 입증한다.