다단계 추론 데이터 에이전트 벤치마크
금융 결제 분야의 450개 과제로 구성된 데이터 분석 에이전트 평가 지표이다. 단순 쿼리를 넘어 문서 읽기, 코드 생성, 데이터 교차 참조 등 복잡한 다단계 추론 능력을 측정하며 84%가 고난도 과제로 구성되어 있다.