LLM-as-a-Judge: 정답지가 없는 환경에서 모델 출력 평가하기

핵심 요약

LLM이 생성한 답변의 품질을 평가할 때 정확한 정답(Ground Truth)을 정의하기 어려운 경우가 많습니다. 이 글은 다른 LLM을 평가자로 활용하여 답변의 타당성을 측정하는 LLM-as-a-Judge 기법을 소개합니다. 신뢰할 수 있는 평가 시스템 구축을 위한 온도 설정, 범주형 출력 활용, 모델 분리 등의 구체적인 가이드라인을 제시합니다. 결과적으로 이 기법은 대규모 자동화 평가를 가능하게 하지만 사실 관계 검증에는 한계가 있음을 명시합니다.

배경

LLM 프롬프트 엔지니어링 기초, 모델 평가 지표(Evaluation Metrics)에 대한 이해

대상 독자

LLM 애플리케이션의 품질 평가 및 벤치마킹을 자동화하려는 개발자

의미 / 영향

LLM-as-a-Judge는 정성적 평가의 자동화를 가능하게 하여 개발 주기를 단축시키지만 비용과 사실 관계 검증의 한계를 고려한 전략적 도입이 필요합니다.

섹션별 상세

LLM-as-a-Judge는 평가자 모델이 질문과 답변을 입력받아 해당 답변이 숙련된 인간이 수용할 만한 수준인지 추론하는 방식입니다. 이는 사실 관계의 진위 여부를 가리는 것이 아니라 학습 데이터 분포를 기반으로 개연성을 추정하는 원리로 작동합니다. 따라서 정답이 명확한 코드 실행 결과나 문자열 일치 여부를 확인하는 작업보다는 정성적인 품질 평가에 더 적합합니다.

신뢰할 수 있는 평가 시스템 구축을 위해 온도를 0으로 설정하여 재현성을 확보하는 것이 필수적입니다. 수치 점수보다는 정확함 또는 부적절함과 같은 범주형(Categorical) 출력을 사용해야 모델이 더 안정적인 판단을 내릴 수 있습니다. 또한 평가 대상 모델과 평가자 모델을 서로 다른 계열로 분리하여 자기 참조 편향(Self-reference bias)을 방지해야 합니다.

평가 시스템도 소프트웨어처럼 버그나 편향이 발생할 수 있으므로 배포 전 소규모 라벨링 데이터셋으로 검증해야 합니다. 실제 운영 환경에서 발생하는 다양한 사례를 포함한 수십 개의 예시로 평가자의 판단이 적절한지 수동으로 검토하는 과정이 필요합니다. 평가 결과의 일치도가 낮을 경우 프롬프트의 평가 기준을 더 구체화하여 반복적으로 개선해야 합니다.

Langfuse는 정확성, 간결성, 문맥 관련성 등 다양한 평가 유형에 대한 사전 구축된 템플릿을 제공하여 구현을 돕습니다. 이러한 템플릿은 명확한 작업 정의와 구조화된 출력 사양을 포함하고 있어 자체적인 평가 시스템 설계 시 유용한 참고 자료가 됩니다. 다만 기본 설정인 수치 점수 대신 범주형 출력을 사용하도록 수정하여 안정성을 높이는 것이 권장됩니다.

LLM-as-a-Judge는 사실 관계 검증이나 학습 데이터에 포함되지 않은 전문 도메인 지식 평가에는 부적합할 수 있습니다. 또한 대형 모델을 여러 개 사용하는 다중 평가자 방식은 비용과 지연 시간이 크게 발생하므로 주의가 필요합니다. 효율적인 운영을 위해 CI/CD 단계에서는 가벼운 검증을 수행하고 정밀한 LLM 평가는 정기적인 벤치마크 단계에서 실행하는 것이 좋습니다.