과정 검증형 벤치마크
최종 결과물만 평가하는 기존 방식과 달리, 모델이 정답에 도달하기까지 거친 중간 단계와 도구 사용의 적절성을 모두 검증하는 평가 기준이다. 모델의 논리적 흐름과 효율성을 정밀하게 파악하기 위해 사용된다.