Beyond GRPO와 On-Policy Distillation: LLM 포스트 트레이닝을 위한 경험적 Sparse-to-Dense Reward Principle

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

라벨링 데이터가 한정된 상황에서, 더 큰 교사 모델의 보상 형상을 활용해 교육 신호의 밀도를 높이고, 이후 deployment 모델에 이를 효과적으로 압축해 전달하는 구조를 제시한다. 이를 통해 verifiable math 문제에서 직접 GRPO 대비 성능 향상을 확인하며, 교사-학생 간 학습 신호의 적절한 분배의 중요성을 보인다. 더 큰 교사로부터 얻은 밀집 신호를 배포 모델에 전달하는 브리지를 통해 데이터 효율성과 학습 안정성을 동시에 개선한다.

왜 중요한가

핵심 기여

교사-우선 할당으로 성능 향상

고정된 deployment-student 크기 하에서, 라벨링 데이터 풀을 교사 RL 및 dense transfer에 우선 할당하면 direct GRPO 대비 더 강한 학생이 얻어진다. 동일 베이스 교사를 Stage 1 RL 전에 전달하는 경우 성능 향상이 얻어지지 않는다는 점은 스케일 만으로 해결되지 않음을 시사한다.

2단계 밀집 브리지 도입

교사 롤아웃에 대한 Forward-KL warmup과 학생 롤아웃에 대한 OPD를 결합한 브리지는 차단된 상태에서의 학습을 안정화시키고, cold-start에서의 커버리지 불일치를 줄여 이후의 학습 효율을 높인다.

브리지 규칙 이후 학생-희소 보상 RL

브리지를 통해 학생이 유용한 근방에 위치한 후 held-out 데이터로 Stage 3 GRPO를 수행하면 교차 데이터의 추가 업데이트보다 더 큰 개선이 나타난다. 브리지 데이터 재사용 재생(replay) 제어는 신규 labeled data의 효과를 대체하지 못한다는 점이 확인된다.

핵심 아이디어 이해하기

출발점: 희소 reward가 시퀀스-레벨이며 끝에만 제공되므로 학습이 어렵다. 큰 교사 모델에서 이 희소 reward를 사용해 보상 형상을 만든 뒤, 교사를 dense한 로그 확률 시퀀스로 조정해 학생 모델이 그 분포를 모방하도록 한다. 두 단계의 브리지는 학생의 분포를 교사 분포에 가까워지게 만들어 OPD의 신뢰-구간 업데이트가 안정적으로 작동하도록 한다. 이후 Stage 3에서 남은 labeled data를 사용해 학생의 학습 신호를 추가로 보강한다. 이때, 교사-학생 간의 분포 격차가 작을수록 OPD의 변동성과 학습 효과가 커진다. 마지막으로 교사 RL로 형성된 보상 형태가 충분히 잘 정의되어야(‘C1’) OPD가 의미 있는 방향으로 작동하며, 교사-학생의 상태 분포 차이가 너무 크면(‘C2’) 학습 불안정이 발생한다. 이 구조에서 교사-우선 할당이 직접 GRPO보다 우수한 결과를 낳고, 2단계 브리지가 학생의 학습 가능성을 열어주며, 브리지 이후 학생의 희소 보상 RL이 추가 이점을 제공한다.

방법론

Stage 1: 교사-희소-보상 RL. D를 사용하여 교사 π_T에 보상-형상 보상을 적용해 교사 정책을 학습시키고, 그 결과를 보상-형상 교사 π_T로 정의한다. 입력 x에 대해 y = (y1,...,yT)이며 st = (x, y<t)일 때, π_T(·|s)가 보상 R(x,y)에 의해 최적화된 분포가 된다. Stage 2a: Forward-KL warmup. s ∼ dπ_T에서 π_T의 next-token 분포를 학생 π_θ와 맞추기 위해 KL(π_T(·|s) ∥ π_θ(·|s))를 최소화한다. 이는 교사-지원 토큰에 직접 학습하는 모드 커버링 학습이며 냉-start에서 안정적이다. Stage 2b: On-policy distillation. π_θ를 샘플링한 뒤, 고정된 교사 π_T에 대해 KL(π_θ(·|s) ∥ π_T(·|s))를 최소화한다. 이때 교사는 고정된 채로 학생의 상태 분포에 피드백이 제공된다. Stage 3(선택적): Post-bridge 학생 측 희소 보상 RL. held-out 데이터를 Stage 3 GRPO에 사용해 추가적인 희소 보상 학습을 수행한다. P1, P2, P3의 예측은 실험에서 검증되었으며, Stage 1의 부재, Stage 2a의 부재, Stage 2b의 부재 각각이 성능 저하로 이어진다.

주요 결과

주요 벤치마크 결과: Direct GRPO baseline across Qwen3 scales에서 Qwen3-1.7B는 MATH 75.9%±0.9, AIME 2024 19.8%±1.4, AIME 2025 17.1%±0.9였다. Qwen3-8B는 88.4%±0.8, 47.7%±1.5, 36.7%±1.2; Qwen3-14B는 89.5%±0.7, 47.1%±1.2, 39.0%±0.9이었다. 구성요소를 갖춘 전체 파이프라인의 엔드포인트는 RL’d Qwen3-8B에서 MATH 79.3%±0.7, AIME 2024 25.2%±1.6, AIME 2025 20.2%±1.3으로 Direct GRPO를 상회한다. Stage 1 제거( raw teacher ) 시 71.5%±0.9, 15.0%±1.5, 10.6%±1.2로 감소했고, Stage 2a 제거는 77.6%±0.8, 23.0%±1.4, 18.9%±1.4로 하락했다. Stage 2b 제거는 76.0%±0.9, 22.4%±1.5, 19.4%±1.4로 감소했다. 동일한 브리지를 사용한 RL’d Qwen3-14B는 전체 브리지 엔드포인트에서 MATH 78.6%±0.9, AIME 2024 24.6%±1.5, AIME 2025 20.8%±1.5이며 Stage 1 제거 시 72.8%±0.8, 16.7%±1.4, 13.5%±1.3으로 감소했다. Stage 3을 포함한 half-split 설정에서 RL’d Qwen3-8B의 전체 파이프라인 엔드포인트는 78.5%±0.9, 23.7%±1.5, 18.5%±1.2였고, Stage 3만 교차 사용 시 75.4%±0.8, 22.0%±1.6, 16.7%±1.4였다. 재생(replay) 제어는 75.7%±0.7, 21.6%±1.3, 17.0%±1.2로 나타났다. Llama 교차-가족 복제에서 Direct GRPO(C cold student)는 MATH 59.8%±0.9, AIME 2024 12.5%±1.2, AIME 2025 7.2%±1.1이고, RL’d 70B 브리지는 62.1%±0.8, 14.9%±1.8, 9.2%±1.4를 보였다. 따라서 교사-RL 이후의 브리지가 학생측 GRPO보다 우수하다는 패턴이 관찰된다.

기술 상세

아키텍처 구성은 Stage 1: 교사-희소-보상 RL, Stage 2a: Forward-KL warmup, Stage 2b: On-policy distillation, Stage 3: 선택적 post-bridge student RL. 수학적 기반으로 OPD의 로컬 임 implicit 보상 Rek_T가 정의되며, Re_k^T(x,y) = sum_{t=1}^T β log π_T(y_t|st) / π_k(y_t|st) 이다. OPD의 그래디언트는 -β ∇θ KL(π_θ ∥ π_T) = E{y~π_θ} [ Rek_T(x,y) ∇_θ log π_θ(y|x) ]이고, 이는 교사-학생 분포 차이에 따른 로컬 신경-규제 업데이트에 해당한다. Forward-KL은 교사 롤아웃에서의 로그 확률 분포를 모방하도록 θ를 훈련시키는 모드 커버링 학습으로, cold-start에서의 안정성과 수렴성에 기여한다. Stage 3에서의 희소 보상 학습은 교차 데이터의 새로운 정보로써 브리지 데이터에 의한 학습의 한계를 보완한다. 실험 설계상, 교사-학생의 토크나이저가 동일해야 하고, 브리지는 교사 로그 확률의 로그-비교를 이용해 학습한다.

한계점

증거는 verifiable math 데이터셋(MATH-500, AIME 2024, AIME 2025)과 두 개의 학생-교사 계열(Qwen3, Llama)에서 확인되며, 더 큰 스케일(예: 400B+ 교사, 70B 학생 등)에서 일반화 여부는 미확인이다. 브리지는 토크나이저 공유가 필요하고, 코드/실험 재현은 공개 데이터 및 도구의 범위에 국한된다. 다중 도메인 및 실용적 도메인에 대한 verifer-density 실험은 추가 검증이 필요하다.

실무 활용

희소 라벨링 데이터가 한정된 상황에서, 큰 교사 모델에서 보상 형상을 얻고 dense 브리지를 거쳐 deployment 모델에 전달하는 방식은 데이터 효율성과 성능을 동시에 개선한다.

제한된 검증 가능한 수학 문제 데이터로 LLM 포스트 트레이닝을 수행할 경우, 교사- RL 이후 dense 브리지를 활용해 배포 모델의 성능을 높인다.
동일 데이터셋으로 다수의 모델 계열을 운영해야 하는 연구 그룹에서, 큰 교사와 작은 배포 모델 간에 데이터 분배를 최적화해 학습 효율을 높인다.
도메인 전문 교사를 활용해 다중-도메인OPD를 구성하는 경우, 브리지를 통해 토큰-단위 신호의 품질을 높이고, Stage 3에서 추가적으로 희소 보상 RL을 수행한다.

코드 공개 여부: 비공개

키워드

GRPO(보상 최적화)OPD(On-Policy Distillation)reward-density principle(보상 밀도 원칙)sparse RL(희소 RL)dense teacher supervision(밀집 교사 감독)forward-KL warmup(Forward-KL 워밍업)MATHAIME