사용자 시뮬레이션
에이전트의 성능을 평가하기 위해 LLM(주로 GPT-4)이 실제 사용자처럼 행동하며 대화를 주고받는 방식이다. τ-bench에서는 사용자의 의도 변경, 추가 정보 제공 등을 시뮬레이션하여 에이전트의 대응 능력을 측정한다. 사람이 직접 평가하는 비용을 줄이면서도 현실적인 상호작용 환경을 제공한다.