평가 모델
다른 AI 모델의 출력 결과물을 객관적으로 평가하기 위해 사용되는 고성능 모델이다. PinchBench에서는 Claude 4.5 Opus를 사용하여 주관적인 작업의 품질을 정밀하게 채점하고 등급을 매긴다.