model-graded-scoring
더 강력한 성능을 가진 대형 언어 모델을 판사(Judge)로 활용하여 다른 모델의 출력물을 평가하는 방식이다. 단순한 일치 여부를 넘어 명확성이나 논리성 같은 정성적인 지표를 수치화할 수 있어 에이전트 최적화 루프의 핵심 평가 지표로 사용된다.
더 강력한 성능을 가진 대형 언어 모델을 판사(Judge)로 활용하여 다른 모델의 출력물을 평가하는 방식이다. 단순한 일치 여부를 넘어 명확성이나 논리성 같은 정성적인 지표를 수치화할 수 있어 에이전트 최적화 루프의 핵심 평가 지표로 사용된다.