루브릭 가이드 평가
사전에 정의된 세부 평가 항목(루브릭)을 바탕으로 모델의 답변을 채점하는 방식으로, 단순 선호도 조사보다 객관적이고 구체적인 피드백을 제공한다. 이는 평가의 투명성을 높이고 모델의 특정 약점을 파악하는 데 매우 효과적이다.
모델 생성 루브릭의 한계: RubricBench로 밝혀낸 인간과의 성능 격차