Pointwise Mutual Information 기반의 Reasoning RL을 위한 Anti-Self-Distillation

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

On-policy self-distillation은 외부 교사 없이 토큰 단위의 imitation 신호를 제공하는 방향을 제시하지만, 수학 추론에서의 성능은 불안정하다. PMI 분석은 privileged context가 per-token 신호를 왜곡하는 구조적 바이어스를 밝히고, AntiSD는 gradient 방향을 역전시켜 deliberation 토큰의 기여를 회복한다. 다섯 모델에서 GRPO 대비 학습 속도 향상과 최종 정확도 향상을 보여준다.

왜 중요한가

On-policy self-distillation은 외부 교사 없이 토큰 단위의 imitation 신호를 제공하는 방향을 제시하지만, 수학 추론에서의 성능은 불안정하다. PMI 분석은 privileged context가 per-token 신호를 왜곡하는 구조적 바이어스를 밝히고, AntiSD는 gradient 방향을 역전시켜 deliberation 토큰의 기여를 회복한다. 다섯 모델에서 GRPO 대비 학습 속도 향상과 최종 정확도 향상을 보여준다.

핵심 기여

PMI 기반 per-token 신호의 구조적 바이어스 식별

privileged context가 이미 암시하는 토큰에 신호를 집중시키고 deliberation 토큰을 억제하는 per-token 신호의 구조적 바이어스를 conditional PMI 관점에서 제시한다.

Anti-Self-Distillation(AntiSD) 제안

LSD의 gradient 방향을 descent에서 ascent로 바꾸고, per-token 신호를 Jensen–Shannon divergence로 형성하며 상한을 부여한다.

Entropy-triggered 게이트 도입

교사의 엔트로피가 감소하면 AntiSD 신호를 비활성화하고, 엔트로피가 회복되면 다시 활성화하는 게이트를 도입한다.

다수 모델에서의 실험적 성과

4B–30B 규모의 다섯 모델에서 AntiSD가 GRPO 대비 학습 속도를 2–10× 감소시키고 최종 정확도를 최대 11.5포인트 향상시킨다.

Continual AntiSD의 가능성

GRPO 체크포인트가 포화된 상황에서도 AntiSD의 이득을 부분적으로 재현하며, 지속 학습에서의 활용 여지를 보인다.

핵심 아이디어 이해하기

출발점은 on-policy self-distillation에서 teacher가 privileged context로 토큰 확률을 조정한다는 점이다. ut = log πT(yt | x, y<t) − log πS(yt | x, y<t)로 정의되는 per-token 신호는 PMI(yt; c | x, y<t)로 해석되며, 이 신호는 privileged context가 특정 토큰의 확률을 높이거나 낮춘다는 정보를 담고 있다. 이로 인해 shortcut 토큰은 과대평가되고 deliberation 토큰은 과소평가되는 구조적 바이어스가 발생한다. AntiSD는 이 신호의 부호를 역전시켜 델리버레이션 토큰의 기여를 증가시키고, JSD를 사용해 두 분포 간 차이의 상한을 갖도록 조절한다. 엔트로피 게이트는 교사 정보가 충분히 남아 있을 때만 AntiSD 신호를 작동시키고, 교사 엔트로피가 낮아지면 자동으로 비활성화한다.

방법론

퍼-token 수준의 신호 δt를 ut = tt − st로 정의하고, δt를 −φ(ut)로 바꿔 역전 방향으로 학습을 진행한다. 2) f-divergence로 정의된 DJSD(πS∥πT)에서 φ(u) = 1/2(softplus(u) − log 2)로 정의된 대역형를 사용해 AAntiSDt = −φ(ut) 형태의 어드밴티지를 얻는다. 3) 엔트로피 게이트 g를 도입해 H이 Hwarm 이상일 때만 λmax를 곱한 AntiSD를 활성화하고, τdown 이하로 떨어지면 비활성화한다. 4) 알고리즘 1에 따라 학습 스텝에서 SAD를 적용하고, GRPO와의 결합 형태를 정책기울기로 업데이트한다.

주요 결과

다섯 모델에서 AntiSD가 GRPO의 최고점에 도달하는 속도를 2–10× 가속했고, Avg 기준으로 최종 정확도는 최대 +11.5pp 상승했다. 특히 Qwen3-8B, Qwen3-4B-IT-2507, Olmo3-7B-IT에서 큰 개선이 나타났다. HMMT25/ AIME25 등 벤치마크에서 AntiSD가 GRPO 대비 안정적으로 우위를 유지했으며, pass@k 그래프에서도 AntiSD의 리드가 유지되었다. SD는 교사 엔트로피가 0.1 nat 수준으로 수렴하거나 1 nat를 초과하는 경향이 있어 학습 신호가 불안정했고, No-gate 변형은 모델에 따라 불안정한 구동을 보였다.

기술 상세

LSD의 per-token KL을 역전시키는 AntiSD를 도입하고, DJSD의 gradient를 이용해 각 토큰의 어드밴티지를 φ(ut)로 조절한다. ut은 PMI(yt; c | x, y<t)로 해석되며, 텍스트의 shortcut 토큰의 신호를 상한하고 deliberation 토큰의 신호를 상향한다. 게이트는 엔트로피 H를 기반으로 작동하며, Hwarm 이상에서 λmax를 곱한 AntiSD 신호를 활성화하고 H이 τdown 아래로 떨어지면 비활성화한다. 실험에서 4B–30B 파라미터 규모의 Qwen3/Olmo-3 계열 모델에 적용되었다.

한계점

논문은 PMI 기반의 지역적 분석에 기반하며, 전체 최적해를 보장하는 전역적 분석은 제시하지 않는다. Evaluation은 수학 추론 및 코드 추론 벤치마크에 한정되며, 다중 턴 에이전트 설정이나 멀티도메인 확장에 대해서는 추가 연구가 필요하다.

실무 활용

AntiSD는 GRPO 기반의 RLVR 학습에서 추가 비용 없이 self-distillation의 신호를 개선하는 post-training 방법이다. 엔트로피 게이트를 통해 안정성을 확보하고, 다수의 4–30B 파라미터 모델에서 학습 속도와 최종 성능을 개선한다.

수학 문제 해결 및 코드 추론에서 학습 속도 및 정확도 향상
GRPO 기반 RLVR의 비용 절감 및 학습 효율 개선
대규모 LLM의 자기 진단 및 자기 개선 파이프라인에서 프로세스 신호 개선

코드 공개 여부: 공개

코드 저장소 보기

키워드

Self-DistillationPrivileged ContextPMIJensen-Shannon DivergenceEntropy GateGRPOOn-policy DistillationAntiSD