Rebellious Student: RLRT—RLVR에서 교사 신호를 역방향으로 읽어 추론 탐색을 강화하는 Self-Distilled RLVR

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

자기-distillation의 교사–학생 간 정보 비대칭을 역전시켜 성공 롤아웃에서 학생의 독립적 추론을 증폭한다. RLRT는 토큰 수준에서 학생이 교사의 예측과 다르게 선택한 경우를 강화해 학습의 탐색 다양성 및 추론 품질을 높이고, 6개 수학 벤치마크에서 기존 기반 대비 성능 향상을 보인다. 이는 RLVR의 추론 한계를 넘어서 정보 비대칭을 탐색의 원천으로 삼는 설계 방향을 제시한다.

왜 중요한가

자기-distillation의 교사–학생 간 정보 비대칭을 역전시켜 성공 롤아웃에서 학생의 독립적 추론을 증폭한다. RLRT는 토큰 수준에서 학생이 교사의 예측과 다르게 선택한 경우를 강화해 학습의 탐색 다양성 및 추론 품질을 높이고, 6개 수학 벤치마크에서 기존 기반 대비 성능 향상을 보인다. 이는 RLVR의 추론 한계를 넘어서 정보 비대칭을 탐색의 원천으로 삼는 설계 방향을 제시한다.

핵심 기여

새로운 분석 프레이밍

올바른 롤아웃에서 교사–학생 간 격차를 imitation-target 가 아닌 self-driven reasoning의 증거로 해석한다. D_hat_t 및 D_bar_t를 통해 토큰 수준 정보 비대칭과 위치의 중요성을 정의하고, 익스플로잇/익스플로레이트 방향을 토큰의 부호로 식별한다.

RLRT 알고리즘

RLRT는 RLVR-GRPO 파이프라인에 역방향 교사 신호를 적용한다. w_RLRT_t = exp(sign(A) · D_hat_t)로 토큰별 가중치를 계산하고, r=1인(정답에 도달한) 롤아웃에서만 이를 적용한다. A_RLRT_t = A(k) · [(1 − λ) + λ · clip(w_RLRT_t, 1 − ε_w, 1 + ε_w)]로 토큰별 기여를 재가중한다.

실험적 성과

base/instruct/thinking-tuned Qwen3 백본에서 RLRT가 GRPO 및 자기-증류 기반 baselines를 일관되게 능가한다. 6개 수학 벤치마크에서 avg@16 대비 평균 +8.9%의 향상을 확인했다.

회상 반영(reflection) 실험

Wait, let me reconsider.라는 반영 프롬프트를 도입해 D_bar_t가 실제로 중요한 위치를 causal하게 식별하는지 실험한다. max_kl에서 flip→R 비율이 크게 증가하고, RLRT는 100스텝에서 이 효과를 안정적으로 유지한다.

탐색 분포의 의미 있는 변화

RLRT는 토큰 후보 집합 자체를 재구성해 base의 tail에서 top으로 토큰을 끌어올린다(고확률의 tail 토큰이 상위 토큰으로 진입). 이는 단순한 엔트로피 증가가 아닌 의미 있는 추론 모드를 넓히는 변화이다.

핵심 아이디어 이해하기

출발점: RLVR에서 sparse 보상 하의 학습은 탐색의 다양성 저하로 이어질 수 있다. 기존 self-distillation는 실패 롤아웃에선 보강하지만, 성공 롤아웃에선 교사에 맞추려는 경향이 강하다. 이를 역으로 해석하면, 교사와의 차이가 크되 정답에 도달한 토큰은 학생의 자가 주도적 추론의 표지다. D_hat_t는 토큰별 정보 비대칭을, D_bar_t는 위치의 중요도(Inf_S(t))를 가리키며, 부호는 explore vs exploit 방향을 결정한다. RLRT는 이 신호를 역방향으로 가중해 토큰별 차이가 자기 주도적으로 성공에 기여한 경우를 강화한다. 그 결과, 기존 벤치마크 대비 학습 곡선의 성장 속도가 빨라지고, Tail 토큰의 상위 진입이 증가해 학습 효과가 확산된다.

기술 상세

아키텍처: RLVR 프레임워크에 GRPO surrogate를 사용하고, 교사 뷰 P_t^T(·)는 c(privileged context)로 정의된다. 토큰 v에 대해 D_hat_t(v) = log P_t^S(v) − log P_t^T(v)로 정의된 토큰 수준 정보 비대칭을 계산한다. D_bar_t = E_{v∼P_t^S}[D_hat_t(v)] = KL(P_t^S ∥ P_t^T)이며 Inf_S(t) = E_{v∼P_t^S}[f(v) − f_bar^S_t]로 위치 영향력을 정의한다. Inf_S(t)² ≤ 2 D_bar_t(정리 2). D_hat_t의 부호에 따라 탐색(explore) vs 익 exploits 결정되며, D_hat_t(v) < 0은 교사가 예측한 토큰, D_hat_t(v) > 0은 교사에 반하는 토큰이다. RLRT weight: w_RLRT_t = exp(sign(A) · D_hat_t). r=1인 롤아웃에 한해 A_RLRT_t = A(k) · [(1 − λ) + λ · clip(w_RLRT_t, 1 − ε_w, 1 + ε_w)]. 알고리즘 1에서 제시된 절차대로 K개의 롤아웃에 대해 verifiable reward를 계산하고, 각 t에서 D_hat_t를 계산한 뒤, RLRT 토큰 가중치를 적용한다. 실험 설정은 DAPO-Math-17k를 데이터로 사용하고, 2×B200 GPU에서 실행되며, 배치 256, 롤아웃 수 8, 응답 길이 20480 등 하이퍼파라미터가 제시된다. 6개의 수학 벤치마크(AIME24/25/26, HMMT26, AMC23, MATH500)에서 avg@16 및 pass@16 기준으로 평가한다.

한계점

RLRT는 self-distillation에 의존하는 설정으로 한계가 있다. 실험은 수학 추론에 한정되며 off-policy distillation이나 다른 privileged information의 형태에 대한 일반화 여부는 추가 연구가 필요하다.

실무 활용

RLRT는 self-distillation과 GRPO 기반의 RLVR 학습에 적용되어 수학 추론 능력을 강화한다. 토큰 수준의 역방향 가중치를 통해 self-driven reasoning의 탐색을 촉진하고, 다양한 백본에서 일관된 성능 향상을 보여준다.

Post-training 강화학습 기반 수학 추론 모델의 성능 향상
자체distillation 기반 대규모 LLM의 추론 다양성 강화
교사 신호를 활용한 on-policy distillation의 새로운 방향 제시
다양한 프롬프트 체계에서 자기 주도적 추론의 재발견 및 재학습
다른 RLVR 태스크(예: 법률/의학 추론)로의 일반화 시도

코드 공개 여부: 미확인

키워드

self-distillationRLVRRLRTinformation asymmetryGRPOQwen3math reasoningDAPO-Math-17k