DPO 파인튜닝을 통한 오픈소스 LLM 판사 모델의 GPT-5.2 성능 능가

핵심 요약

LLM의 출력을 평가하기 위해 LLM을 사용하는 'LLM-as-a-judge' 방식이 확산되고 있으나, GPT-5.2와 같은 폐쇄형 모델은 높은 비용과 불투명성 문제를 안고 있다. Together AI는 DPO(Direct Preference Optimization) 기법을 사용하여 GPT-OSS 120B 및 Qwen3 235B와 같은 오픈소스 모델을 인간의 선호도 데이터로 파인튜닝했다. 실험 결과, 파인튜닝된 오픈소스 모델은 RewardBench 2 벤치마크에서 GPT-5.2의 정확도를 능가하면서도 비용은 15배 저렴하고 속도는 14배 빠른 성과를 거뒀다. 이는 특정 도메인에서 오픈소스 모델이 거대 폐쇄형 모델을 대체할 수 있는 실질적인 대안임을 시사한다.

배경

LLM 기초 지식, DPO(Direct Preference Optimization) 개념, 파인튜닝 프로세스 이해

대상 독자

LLM 평가 파이프라인을 구축하는 ML 엔지니어 및 비용 효율적인 모델 운영을 고민하는 프로덕트 매니저

의미 / 영향

거대 폐쇄형 모델이 독점하던 평가 영역에서 오픈소스 모델이 충분한 경쟁력을 갖췄음을 보여준다. 이는 기업들이 자체 데이터로 특화된 판사 모델을 구축하여 보안과 비용 효율성을 동시에 확보할 수 있는 길을 열어준다.

섹션별 상세

LLM-as-a-judge는 생성보다 판단이 쉽다는 원리에 기반하여 LLM의 품질, 관련성, 적절성을 평가하는 지배적인 프레임워크로 자리 잡았다. 인간 평가자는 확장이 어렵지만, LLM은 인간이 작성한 텍스트의 패턴을 내재화하여 독립적인 평가자로서 효과적으로 작동한다. 특히 외부 평가자로서의 LLM은 생성 모델이 범할 수 있는 환각이나 유해 콘텐츠를 객관적으로 탐지하는 데 유리하다.

RewardBench 2를 활용한 벤치마크 결과, Qwen3 235B와 같은 오픈소스 모델은 별도의 튜닝 없이도 GPT-5.2와 대등하거나 소폭 앞서는 성능을 보였다. 특히 안전성(Safety)과 사실성(Factuality) 카테고리에서는 높은 정확도를 기록했으나, 주관적인 품질을 다루는 포커스(Focus) 카테고리에서는 모든 모델이 10% 내외의 낮은 정확도를 보이며 어려움을 겪었다.

DPO(Direct Preference Optimization) 기법을 적용하여 약 5,400개의 선호도 쌍 데이터로 모델을 학습시킨 결과, GPT-OSS 120B의 정확도가 57.91%에서 62.63%로 크게 향상되었다. DPO는 별도의 보상 모델 없이 언어 모델을 직접 최적화하여 인간의 선호도와 일치하도록 가중치를 조정하며, 이는 판사 모델이 고품질 응답과 저품질 응답을 더 명확히 구분하도록 가르친다.

성능뿐만 아니라 경제성 측면에서도 오픈소스 판사 모델은 압도적인 우위를 점한다. GPT-OSS 120B는 GPT-5.2 대비 토큰당 비용이 약 15.3배 저렴하며, 추론 속도는 초당 908.7 토큰으로 14배 더 빨라 대규모 프로덕션 환경의 실시간 평가에 적합하다. 이는 기업이 자체 GPU 인프라에서 모델을 운영함으로써 벤더 종속성을 탈피하고 비용을 최적화할 수 있음을 의미한다.

카테고리별 분석 결과, 모델들은 안전성 평가에는 매우 능숙하지만 정밀한 지시 이행(Precise IF)이나 주관적인 품질 평가(Focus)에서는 여전히 개선의 여지가 많다. 안전성 분야의 높은 정확도는 모델들이 이미 유해 콘텐츠를 출력하지 않도록 학습되었기 때문이며, 향후 특정 평가 작업에 특화된 데이터셋으로 추가 튜닝을 할 경우 성능을 더 끌어올릴 수 있다.

이미지 분석

Diagram
평가 대상 LLM의 응답이 Judge LLM으로 전달되어 사전에 정의된 기준에 따라 유해(Harmful) 또는 무해(Not Harmful)로 분류되는 과정을 보여준다. 이는 LLM-as-a-judge의 가장 기본적인 작동 원리를 시각화한 것이다.
LLM 판사가 시스템 출력을 평가하여 유해성 여부를 분류하는 기본 워크플로우 다이어그램이다.

Diagram
모델 A와 B의 응답을 Judge LLM이 비교하며, 위치 편향을 제거하기 위해 순서를 바꿔서 두 번 평가(Two Pass Eval)한 뒤 최종적으로 무승부(Tie) 여부 등을 결정하는 상세 프로세스를 나타낸다.
두 모델의 응답을 비교하여 최종 결정을 내리는 Pairwise Comparison 방식과 위치 편향을 줄이기 위한 Two Pass 평가 과정을 설명하는 다이어그램이다.

Chart
Focus(495개)와 Factuality(475개) 카테고리에 가장 많은 샘플이 분포되어 있으며, Ties(102개)와 Precise IF(160개)가 가장 적음을 보여준다. 이는 벤치마크의 데이터 구성을 이해하는 데 중요한 정보를 제공한다.
RewardBench 2 벤치마크의 카테고리별 샘플 분포를 보여주는 막대 그래프이다.

Chart
Qwen3 235B가 62.6%로 가장 높은 정확도를 보였으며, GPT-5.2(61.6%)가 그 뒤를 잇는다. 파인튜닝 전에도 특정 오픈소스 모델이 폐쇄형 모델과 대등한 성능을 낼 수 있음을 시각적으로 증명한다.
파인튜닝 전 오픈소스 모델들과 GPT-5.2의 기본 정확도를 비교한 막대 그래프이다.

Chart
모든 모델이 Safety 영역에서 86~94%의 높은 정확도를 보이지만, Focus 영역에서는 2.5~12.7%로 매우 낮은 성능을 보임을 한눈에 파악할 수 있게 한다. 모델별 강점과 약점이 극명하게 드러나는 데이터이다.
각 모델의 RewardBench 2 카테고리별 정확도를 나타내는 히트맵이다.

Chart
학습이 진행됨에 따라 보상 정확도(reward/accuracy)가 1.0에 가깝게 상승하고 손실값이 안정적으로 감소하는 과정을 통해 DPO 튜닝이 성공적으로 이루어졌음을 입증한다.
GPT-OSS 120B 모델의 DPO 파인튜닝 과정 중 보상 정확도와 손실값 변화를 보여주는 학습 곡선이다.

실무 Takeaway

대규모 평가 작업에서 GPT-5.2 대신 DPO로 튜닝된 GPT-OSS 120B를 사용하면 성능 저하 없이 비용을 90% 이상 절감 가능하다.
LLM 판사 구축 시 RewardBench 2와 같은 벤치마크를 활용하여 안전성, 수학, 사실성 등 특정 영역에서의 모델 강점을 사전에 파악해야 한다.
DPO 기법은 별도의 보상 모델 학습 없이도 인간의 선호도 데이터를 직접 활용하여 모델의 판단 능력을 효율적으로 개선하는 핵심 도구이다.

언급된 리소스

API DocsTogether AI Models

GitHubRewardBench 2