넥서스 레이븐
복잡한 실제 API 호출 환경을 모방하여 모델의 실질적인 의미 이해도를 평가하는 벤치마크이다. 최대 28개의 파라미터를 가진 문서를 해석하고 정확한 호출문을 생성해야 하므로, 단순한 형식 준수를 넘어 고도의 추론 능력을 요구하는 에이전트 성능 측정에 중요하다.