CEPO: RLVR Self-Distillation using Contrastive Evidence Policy Optimization

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

RLVR에서 모든 토큰에 동일한 보상 신호를 주는 문제를 해결한다. CEPO는 올바른 답(r+)과 잘못된 답(r−)를 구별해 토큰 단위의 대조 신호를 계산하고, 결정적인 토큰에만 큰 신호를 부여한다. 그 결과 학습 속도와 샘플 효율이 개선되며 정보 누수 문제를 방지한다.

왜 중요한가

RLVR에서 모든 토큰에 동일한 보상 신호를 주는 문제를 해결한다. CEPO는 올바른 답(r+)과 잘못된 답(r−)를 구별해 토큰 단위의 대조 신호를 계산하고, 결정적인 토큰에만 큰 신호를 부여한다. 그 결과 학습 속도와 샘플 효율이 개선되며 정보 누수 문제를 방지한다.

핵심 기여

대조적 신호 도입

P+T(yt)/P−T(yt) 대신 대조 비율 P+T(yt)/P−T(yt)를 도입해 정답-정답 반대의 토큰 레벨 신호를 생성하고, 교사 간 차이를 활용한 베이지안 해석으로 신호를 설명한다.

구조적 안전성 보장

CEPO는 RLSD의 방향 고정성과 leakage-free gradient 특성을 유지한다. 토큰별 신호는 샘플링된 토큰에서만 작용하고 어휘 수준의 r- conditioned 합은 포함되지 않는다.

수학적 충분조건 제시

Proposition 1에서 CEPO가 RLSD보다 더 예리한 크레딧을 부여하는 필요충분조건을 제시하고, P−T(yt) < PS(yt)일 때 결정 토큰에서의 신호가 커진다는 것을 보인다.

실험적 성과

2B에서 43.43% 평균 정확도, 4B에서 60.56% 평균 정확도 달성. GRPO 대비 +2.26pp, +3.13pp의 개선이 관찰된다.

핵심 아이디어 이해하기

단계별 로깅된 보상을 통해 어느 토큰이 결정적 추론에 기여하는지 판단하기 어렵다. RLSD는 단일 참조 신호로 인해 기여도 구분에 한계가 있다. CEPO는 P+T(yt)/P−T(yt) 대신 P+T(yt)/P−T(yt)를 사용하고 P−T(yt)를 공통 denominator로 삼아, r+를 강화하고 r−를 약화시키는 양방향 신호를 계산한다. 이때 ∆CEt = log P+T(yt) − log P−T(yt)로 정의되는 대조적 증거 델타를 통해 결정 토큰에 큰 가중치를 부여하고, filler 토큰은 near-unity 가중치를 갖게 한다. 이로써 토큰 수준의 gradient가 정보 누수 없이 샘플링된 토큰에서만 영향을 받도록 한다.

방법론

전체 접근 방식은 GRPO 기반 PPO 학습 루프를 유지하되, 토큰 t마다 CEPO 비율과 대조 증거 델타를 이용해 Ât를 수정한다. PS(yt), P+T(yt), P−T(yt) 세 분포를 정의하고, ∆CEt = sg(log P+T(yt) − log P−T(yt))를 계산한다. wCEt = exp(sign(A) · ∆CEt), Ât = At · [(1−λ) + λ · clip(wCEt, 1−εw, 1+εw)]. 이후 PPO의 clipped surrogate를 사용해 θ를 업데이트한다. G 롤아웃 중 Correct(G+)와 Wrong(G−)를 구분하고, Twarm 동안 λ를 감소시키며 εw를 적정하게 설정한다. P−T = PS일 때 CEPO는 RLSD와 동일하게 수렴한다.

주요 결과

주요 벤치마크에서 CEPO가 GRPO를 능가한다. 2B 모델에서 CEPO의 평균 정확도는 43.43%로 GRPO의 41.17%를 넘는다. 4B 모델에서 CEPO는 60.56%로 GRPO의 57.43%를 상회한다. OPSD/SDPO는 일부 벤치마크에서 기계적 학습 이상으로 하락하는 경향을 보였으며, CEPO는 어휘 전역 합이 포함되지 않으므로 정보 누수 없이 신호를 전달한다. Ablation 결과에서 Actor-Policy를 교사로 사용할 때 가장 큰 이득이 나타났고, 25스텝의 warmup + linear decay의 λ 스케줄이 GRPO 대비 가장 안정적인 이득을 준다. 학습 시간은 50스텝 기준 약 6시간 내외로 GRPO 대비 약간의 추가 오버헤드를 가진다. CEPO의 토큰-수준 대조 델타 분포는 학습이 진행될수록 Positive delta 비중이 증가하고 Negative delta 비중은 감소한다.

기술 상세

구조: πθ, r+ (정답 교사), r− (거부된 롤아웃의 정답)로 구성된 토큰-레벨 분포 PS, P+T, P−T를 정의한다. ∆CEt = sg(log P+T(yt) − log P−T(yt))를 통해 대조 증거 델타를 계산하고, wCEt = exp(sign(A) · ∆CEt), Ât = A(t) · [(1−λ) + λ · clip(wCEt, 1−εw, 1+εw)]를 얻는다. Ât를 PPO 클립 surrogate에 대입해 θ를 업데이트한다. RLSD의 containment를 만족하며, P−T = PS일 때 CEPO는 RLSD로 수렴한다. Proposition 1은 A>0에서 PS(yt) > P−T(yt)일 때 wCEt > wRLSDt가 성립한다는 것을 보이고, 반대 경우도 동일하게 성립한다. 이로써 결정적 토큰에서만 크레딧이 강화되고 filler는 중립적으로 유지된다. Twarm은 25스텝, λ은 0에서 0으로 선형 감소, εw는 0.5를 기본값으로 설정한다.

실무 활용

CEPO는 RLVR 학습 루프에서 토큰 단위로 결정적 크레딧을 집중시키는 방식으로, 다중 모달 추론 및 복잡한 추론 체인을 다루는 모델의 성능과 학습 효율을 향상시킬 수 있다.

다중 모달 수학 추론에서 결정적 단계의 정확도 향상
거부 롤아웃으로부터 학습 신호를 얻는 자기지도 강화학습의 안정성 개선
RLVR 기반 체계의 학습 속도 증가 및 샘플 효율 향상

코드 공개 여부: 공개

코드 저장소 보기

키워드

CEPO(대조적 증거 정책 최적화) — 대조 신호RLVR(검증 가능한 보상 강화학습)token-level credit assignment — 토큰 수준 신호 배정privileged information distillation — 특권 정보 증류Qwen3-VL-2B-Instruct, Qwen3-VL-4B-Instructmultimodal reasoning — 다중모달 추론