LLM Reasoning에서 Self-Distillation을 위한 Adaptive Teacher Exposure

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

OPSD의 기본은 교사가 전체 참조를 보는 설정이다. 이 노출은 쉬운 문제에서 유리하지만 hard 문제에서 학습 흡수를 방해한다. ATESD는 교사 노출을 학습-상태로 조정하고 지연된 보상으로 credit을 부여해 교사–학생 매칭 문제를 완화한다. 실험은 AIME 2024/2025 및 HMMT 2025에서 OPSD 대비 평균@12 점수를 향상시켰다.

왜 중요한가

OPSD의 기본은 교사가 전체 참조를 보는 설정이다. 이 노출은 쉬운 문제에서 유리하지만 hard 문제에서 학습 흡수를 방해한다. ATESD는 교사 노출을 학습-상태로 조정하고 지연된 보상으로 credit을 부여해 교사–학생 매칭 문제를 완화한다. 실험은 AIME 2024/2025 및 HMMT 2025에서 OPSD 대비 평균@12 점수를 향상시켰다.

핵심 기여

Teacher exposure mismatch 정의 및 증거 제시

교사 노출 α가 증가할수록 teacher–student KL이 증가하고, 학습 흡수가 감소하는 'teacher-side exposure mismatch'를 실험적으로 확인했다.

ATESD 프레임워크 제안

Exposure α를 연속 변수로 제어하는 Beta-policy controller를 도입하고, hold window 동안 하나의 α를 고정해 학습 진행에 따른 영향력을 강화한다.

지연된 학습-progress 보상 설계

R(t0) = Glp(t0) + λ · Ggt(t0) 형태의 보상으로 결정의 지연 효과를 반영하고 REINFORCE로 컨트롤러를 학습한다.

대규모 벤치마크에서의 성능 향상

Qwen3-1.7B/4B/8B에서 OPSD 대비 Average@12를 증가시키고, 4B 모델에서 65.65, 8B 모델에서 67.13의 평균 성능을 달성했다.

핵심 아이디어 이해하기

문제 정의: OPSD에서 교사가 reference solution의 전체 코드를 볼 때 생기는 student learning의 불일치를 확인한다. 해결 원리: α를 연속적으로 제어하고, beta 분포로 α를 샘플링하는 Beta-policy controller를 학습 상태에 조건화한다. 학습 진행에 따른 보상을 이용해 delayed credit을 학습에 반영한다. 변화점: 학습 regime에 따라 최적의 α가 다르며, interior 분포로 수렴하는 학습-상태 기반 노출 제어가 높은 성능 향상을 이끈다.

방법론

Exposure-Modulated Teacher: αt로 참조 solution의 reasoning prefix의 일부만 노출하도록 잘라 qαtT(x, y⋆)를 구성한다. final answer는 보존한다. Gradients는 pS에만 흐른다.

주요 결과

메인 벤치마크: Qwen3-1.7B에서 Average@12 44.35(OPSD 43.40 대비 +0.95), AIME24 59.17, AIME25 44.72, HMMT25 29.17. Qwen3-4B에서 Average@12 65.65(OPS D 63.60 대비 +2.05), AIME24 78.06, AIME25 71.39, HMMT25 47.50. Qwen3-8B에서 Average@12 67.13(OPS D 64.80 대비 +2.33).

기술 상세

Exposure-Modulated Teacher: αt를 truncation(y⋆, αt)으로 구성해 y~αt를 교사 프롬프트에 삽입하고, pαtT(·|x, y⋆, y<n)와 pS(·|x, y<n)을 비교하는 token-level KL을 손실로 사용한다. Beta Exposure Controller: st를 바탕으로 (at, bt) = 1 + softplus(fφ(st))이고 αt ∼ Beta(at, bt), αt은 [αmin, αmax] 사이로 잘린다. Hold window H 동안 αt를 고정하고, 이후 L-step lookahead를 통해 보상을 얻어 REINFORCE로 φ를 업데이트한다. 보상 R(t0) = Glp(t0) + λ gt Ggt(t0) 구성, 교사–학생Mismatch를 진짜 보상으로 사용하지 않고 진단 신호로 활용한다. 실험 설계는 100-step 예산, L=20의 lookahead를 사용하며 Qwen3-1.7B/4B/8B에서 벤치마크를 평가한다.

한계점

제한점으로는 현재 컨트롤러가 글로벌(단일 α) 수준에서 작동하며, 개별 샘플이나 문제 난이도에 따른 per-sample or difficulty-aware 노출 제어로 확장 가능하다. 보상은 고정 lookahead 윈도우를 기반으로 하며 counterfactual/model-based 보상 추정으로 보완할 수 있다.

실무 활용

ATESD는 OPSD 파이프라인에 적용 가능한 학습-상태 조건부 교사 노출 제어로, 추론 자기-증류의 성능 향상을 가능하게 한다.

온-정책 증류에서 교사 노출을 조절해 추론 성능을 올리는 경우
다른 문제 도메인에서 privileged context의 부분적 노출 제어를 실험하는 경우
교사-학생 상호작용이 중요한 지식 증류 파이프라인에 적용하는 경우

코드 공개 여부: 비공개

키워드

Adaptive Teacher ExposureSelf-DistillationOn-Policy DistillationBeta-policy ControllerDelayed Credit AssignmentDiscounted Learning-Progress RewardQwen3-1.7B/4B/8BAIME/HMMT