모델 기반 채점기
LLM을 사용하여 다른 AI 에이전트의 출력이나 행동 궤적을 평가하는 방식이다. 정답이 정해지지 않은 주관적인 작업이나 복잡한 상호작용의 품질을 평가하는 데 강점이 있다. 사람이 정의한 루브릭을 기반으로 점수를 부여하며, 정기적인 인간 검토를 통해 신뢰도를 교정해야 한다.