핵심 요약
기존의 생성형 보상 모델은 단순히 추론 과정(CoT)의 길이를 늘리는 데 집중했으나, 이 논문은 문제의 성격에 따라 '너비(다각도 분석)'와 '깊이(논리적 검증)'가 다르게 필요함을 입증했다. 이를 통해 주관적 선호도와 객관적 정답 확인 모두에서 압도적인 성능을 내는 효율적인 보상 모델 구축이 가능해졌다.
왜 중요한가
기존의 생성형 보상 모델은 단순히 추론 과정(CoT)의 길이를 늘리는 데 집중했으나, 이 논문은 문제의 성격에 따라 '너비(다각도 분석)'와 '깊이(논리적 검증)'가 다르게 필요함을 입증했다. 이를 통해 주관적 선호도와 객관적 정답 확인 모두에서 압도적인 성능을 내는 효율적인 보상 모델 구축이 가능해졌다.
핵심 기여
Mix-GRM 프레임워크 제안
비정형 추론 과정을 구조화된 Breadth-CoT(B-COT)와 Depth-CoT(D-COT)로 재구성하는 모듈형 합성 파이프라인을 도입했다.
이중 경로 추론 메커니즘 구축
주관적 선호도 작업에는 다차원 원칙을 다루는 B-COT를, 객관적 정답 확인 작업에는 심층 논리 검증을 수행하는 D-COT를 할당하여 성능을 최적화했다.
RLVR 기반 메커니즘 적응 현상 발견
강화학습(RLVR)이 모델로 하여금 작업 성격에 맞는 추론 스타일을 스스로 선택하게 만드는 '스위칭 증폭기' 역할을 함을 확인했다.
5개 주요 벤치마크 SOTA 달성
기존 오픈소스 보상 모델 대비 평균 8.2% 성능 향상을 기록하며 RewardBench 등 주요 평가 지표에서 최고 성능을 기록했다.
핵심 아이디어 이해하기
기존 보상 모델은 LLM이 답변의 품질을 평가할 때 추론 과정(CoT)을 길게 쓰게 하면 성능이 좋아진다는 '길이 확장(Length Scaling)'에 의존했다. 하지만 단순히 길게 쓰는 것이 항상 정답은 아니며, 수학 문제처럼 논리적 엄밀함이 필요한 작업과 에세이처럼 다각도의 가치 판단이 필요한 작업은 서로 다른 사고 구조를 요구한다.
Mix-GRM은 이를 해결하기 위해 사고의 방향을 '너비(Breadth)'와 '깊이(Depth)'로 나눈다. B-COT는 여러 평가 원칙(도움됨, 무해함, 창의성 등)을 병렬적으로 검토하여 포괄적인 판단을 내리고, D-COT는 답변의 논리적 단계를 순차적으로 검증하여 오류를 잡아내는 데 집중한다.
이 두 가지 사고 방식을 데이터 합성 단계에서부터 분리하여 학습시키고, 강화학습을 통해 모델이 문제 유형을 보고 어떤 사고 방식을 꺼내 쓸지 스스로 결정하게 만든다. 결과적으로 모델은 단순히 길게 쓰는 것이 아니라, 문제에 맞는 '최적의 사고 구조'를 갖추게 된다.
방법론
모듈형 스키마 표준화(Modular Schema Standardization) 단계를 거친다. 비정형화된 기존 CoT 데이터를 '원칙(Principle)-판단(Judgment)-평가(Verdict)' 단위의 원자적 모듈로 분해한다. LLM을 사용하여 원시 텍스트에서 각 평가 항목과 그에 대한 구체적인 근거를 추출하여 구조화한다.
이중 트랙 메커니즘 합성(Mechanism Synthesis)을 수행한다. B-COT는 여러 독립적인 추론 경로에서 추출된 원칙들을 병렬로 통합(Merge & Deduplicate)하여 평가의 범위를 넓힌다. D-COT는 먼저 문제에 대한 정답 추론 과정(Reasoning Trace)을 생성하고, 이를 바탕으로 각 평가 단위의 판단을 재구성하여 논리적 일관성을 확보한다.
메커니즘 적응형 정렬(Mechanism-Adaptive Alignment)로 마무리한다. SFT 단계에서 B-COT와 D-COT가 혼합된 데이터셋으로 초기 학습을 진행한 후, GRPO 알고리즘을 이용한 RLVR을 수행한다. 보상 함수 는 모델 출력의 최종 Verdict가 정답 레이블과 일치할 때 양의 보상을 부여한다. [입력 에 대해 생성된 여러 답변 의 확률 변화를 입력으로] → [이점이 높은 답변의 확률은 높이고 낮은 답변은 낮추는 연산을 수행해] → [최종적으로 정답 레이블과 일치하는 Verdict를 내는 방향으로 가중치를 갱신하고] → [모델이 작업에 맞는 최적의 추론 구조를 스스로 학습하게 한다.]
주요 결과
RewardBench, RMB, PPE 등 5개 주요 벤치마크에서 Mix-GRM은 평균 79.4%의 정확도를 기록하며 Skywork-Reward-8B(76.5%)와 FARE-8B(75.9%)를 크게 앞질렀다. 특히 RLVR 이후 성능이 SFT 대비 4.3%p 향상되어 강화학습의 효과를 입증했다.
도메인별 효율성 분석 결과, B-COT는 주관적 선호도 도메인에서 성능 향상을 주도했으나 객관적 정답 확인에서는 오히려 성능이 하락하는 경향을 보였다. 반면 D-COT는 정답 확인에서 탁월한 성능을 보였으며, Mix-GRM은 이 두 가지의 장점을 결합하여 모든 도메인에서 최고 성능을 유지했다.
다운스트림 작업에서도 우수한 성능을 보였다. Offline RL(DPO) 학습을 위한 보상 신호로 사용했을 때 Instruction-following 벤치마크에서 12.1의 승률을 기록하며 기존 모델들을 압도했다. 또한 Test-time Scaling(Best-of-N) 시나리오에서도 MATH 벤치마크에서 43.2%의 정확도를 기록하여 강력한 검증기(Verifier)로서의 성능을 보였다.
기술 상세
Qwen3-8B-Base를 기반으로 하며, 3만 개의 샘플(9K SFT, 21K RLVR)로 구성된 복합 코퍼스를 사용하여 학습되었다. 데이터셋은 HelpSteer3, Math-DPO, WildGuard 등 다양한 도메인을 포괄한다.
B-COT 합성 알고리즘은 N개의 독립적인 추론 경로를 샘플링한 후, LLM 기반의 'Merge & Deduplicate' 변환을 거쳐 중복을 제거하고 핵심 평가 원칙들을 수평적으로 확장한다. 이는 모델의 수평적 평가 범위(Horizontal Evaluative Scope)를 넓히는 효과를 준다.
D-COT 합성 알고리즘은 먼저 입력에 대한 자가 해결 경로(Reasoning Trace)를 도출한다. 이후 각 평가 단위의 판단을 해당 경로에 근거하여 재생성함으로써, 표면적인 유창함에 속지 않고 논리적 타당성에 기반한 심층 분석을 수행한다.
RLVR 및 GRPO 최적화 과정에서 명시적인 구조 레이블 없이도 모델이 스스로 B-COT(선호도)와 D-COT(정답 확인) 구조를 선택하게 되는 '발현적 극성(Emergent Polarization)' 현상이 관찰되었다. 최종적으로 테스트 세트에서 95%의 구조 일치율을 달성하며 작업별 최적 사고 구조를 내재화했다.
한계점
현재 프레임워크는 주관적 선호도와 객관적 정답 확인이라는 두 가지 축으로만 구분하고 있으나, 실제 작업은 이 두 가지가 복합적으로 얽힌 연속적인 스펙트럼 상에 존재할 수 있다. 또한 하이브리드 작업에서 특정 사고 구조에 고착되는 경직성 문제가 발생할 수 있어 더 세밀한 분류 체계가 필요하다.
실무 활용
Mix-GRM은 고성능 보상 모델이 필요한 RLHF나 DPO 학습 과정에서 매우 정교한 피드백을 제공할 수 있다. 특히 수학, 코딩과 같은 논리적 작업과 일반 대화와 같은 창의적 작업이 혼재된 서비스에서 단일 모델로 대응 가능하다.
- LLM 학습을 위한 고품질 선호 데이터셋 자동 레이블링
- 수학 및 코딩 문제 해결을 위한 추론 결과 검증기(Verifier) 구축
- 다각도 평가 기준이 필요한 챗봇 서비스의 품질 모니터링 시스템
코드 공개 여부: 공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.