장기 목표 과업
수많은 중간 단계와 복잡한 의사결정 과정을 거쳐야 완료할 수 있는 긴 호흡의 작업이다. 단계가 길어질수록 오류가 누적될 가능성이 커지기 때문에 에이전트의 추론 능력과 신뢰성을 시험하는 주요 벤치마크 요소가 된다.