llm-as-judge
LLM을 사용하여 다른 LLM의 응답 품질을 자동으로 평가하는 기법이다. 사람이 직접 평가하는 비용과 시간을 절약할 수 있지만, 판사 모델 자체의 편향이나 캘리브레이션 문제가 발생할 수 있다.
"판사가 피고보다 변동성이 크다?" LLM 평가의 치명적 함정