핵심 요약
LLM의 출력을 평가하기 위해 LLM을 사용하는 'LLM-as-a-judge' 방식이 확산되고 있으나, GPT-5.2와 같은 폐쇄형 모델은 높은 비용과 불투명성 문제를 안고 있다. Together AI는 DPO(Direct Preference Optimization) 기법을 사용하여 GPT-OSS 120B 및 Qwen3 235B와 같은 오픈소스 모델을 인간의 선호도 데이터로 파인튜닝했다. 실험 결과, 파인튜닝된 오픈소스 모델은 RewardBench 2 벤치마크에서 GPT-5.2의 정확도를 능가하면서도 비용은 15배 저렴하고 속도는 14배 빠른 성과를 거뒀다. 이는 특정 도메인에서 오픈소스 모델이 거대 폐쇄형 모델을 대체할 수 있는 실질적인 대안임을 시사한다.
배경
LLM 기초 지식, DPO(Direct Preference Optimization) 개념, 파인튜닝 프로세스 이해
대상 독자
LLM 평가 파이프라인을 구축하는 ML 엔지니어 및 비용 효율적인 모델 운영을 고민하는 프로덕트 매니저
의미 / 영향
거대 폐쇄형 모델이 독점하던 평가 영역에서 오픈소스 모델이 충분한 경쟁력을 갖췄음을 보여준다. 이는 기업들이 자체 데이터로 특화된 판사 모델을 구축하여 보안과 비용 효율성을 동시에 확보할 수 있는 길을 열어준다.
섹션별 상세
이미지 분석

평가 대상 LLM의 응답이 Judge LLM으로 전달되어 사전에 정의된 기준에 따라 유해(Harmful) 또는 무해(Not Harmful)로 분류되는 과정을 보여준다. 이는 LLM-as-a-judge의 가장 기본적인 작동 원리를 시각화한 것이다.
LLM 판사가 시스템 출력을 평가하여 유해성 여부를 분류하는 기본 워크플로우 다이어그램이다.

모델 A와 B의 응답을 Judge LLM이 비교하며, 위치 편향을 제거하기 위해 순서를 바꿔서 두 번 평가(Two Pass Eval)한 뒤 최종적으로 무승부(Tie) 여부 등을 결정하는 상세 프로세스를 나타낸다.
두 모델의 응답을 비교하여 최종 결정을 내리는 Pairwise Comparison 방식과 위치 편향을 줄이기 위한 Two Pass 평가 과정을 설명하는 다이어그램이다.

Focus(495개)와 Factuality(475개) 카테고리에 가장 많은 샘플이 분포되어 있으며, Ties(102개)와 Precise IF(160개)가 가장 적음을 보여준다. 이는 벤치마크의 데이터 구성을 이해하는 데 중요한 정보를 제공한다.
RewardBench 2 벤치마크의 카테고리별 샘플 분포를 보여주는 막대 그래프이다.

Qwen3 235B가 62.6%로 가장 높은 정확도를 보였으며, GPT-5.2(61.6%)가 그 뒤를 잇는다. 파인튜닝 전에도 특정 오픈소스 모델이 폐쇄형 모델과 대등한 성능을 낼 수 있음을 시각적으로 증명한다.
파인튜닝 전 오픈소스 모델들과 GPT-5.2의 기본 정확도를 비교한 막대 그래프이다.

모든 모델이 Safety 영역에서 86~94%의 높은 정확도를 보이지만, Focus 영역에서는 2.5~12.7%로 매우 낮은 성능을 보임을 한눈에 파악할 수 있게 한다. 모델별 강점과 약점이 극명하게 드러나는 데이터이다.
각 모델의 RewardBench 2 카테고리별 정확도를 나타내는 히트맵이다.

학습이 진행됨에 따라 보상 정확도(reward/accuracy)가 1.0에 가깝게 상승하고 손실값이 안정적으로 감소하는 과정을 통해 DPO 튜닝이 성공적으로 이루어졌음을 입증한다.
GPT-OSS 120B 모델의 DPO 파인튜닝 과정 중 보상 정확도와 손실값 변화를 보여주는 학습 곡선이다.
실무 Takeaway
- 대규모 평가 작업에서 GPT-5.2 대신 DPO로 튜닝된 GPT-OSS 120B를 사용하면 성능 저하 없이 비용을 90% 이상 절감 가능하다.
- LLM 판사 구축 시 RewardBench 2와 같은 벤치마크를 활용하여 안전성, 수학, 사실성 등 특정 영역에서의 모델 강점을 사전에 파악해야 한다.
- DPO 기법은 별도의 보상 모델 학습 없이도 인간의 선호도 데이터를 직접 활용하여 모델의 판단 능력을 효율적으로 개선하는 핵심 도구이다.
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료