TL;DR
OPSD의 기본은 교사가 전체 참조를 보는 설정이다. 이 노출은 쉬운 문제에서 유리하지만 hard 문제에서 학습 흡수를 방해한다. ATESD는 교사 노출을 학습-상태로 조정하고 지연된 보상으로 credit을 부여해 교사–학생 매칭 문제를 완화한다. 실험은 AIME 2024/2025 및 HMMT 2025에서 OPSD 대비 평균@12 점수를 향상시켰다.
왜 중요한가
OPSD의 기본은 교사가 전체 참조를 보는 설정이다. 이 노출은 쉬운 문제에서 유리하지만 hard 문제에서 학습 흡수를 방해한다. ATESD는 교사 노출을 학습-상태로 조정하고 지연된 보상으로 credit을 부여해 교사–학생 매칭 문제를 완화한다. 실험은 AIME 2024/2025 및 HMMT 2025에서 OPSD 대비 평균@12 점수를 향상시켰다.
핵심 기여
Teacher exposure mismatch 정의 및 증거 제시
교사 노출 α가 증가할수록 teacher–student KL이 증가하고, 학습 흡수가 감소하는 'teacher-side exposure mismatch'를 실험적으로 확인했다.
ATESD 프레임워크 제안
Exposure α를 연속 변수로 제어하는 Beta-policy controller를 도입하고, hold window 동안 하나의 α를 고정해 학습 진행에 따른 영향력을 강화한다.
지연된 학습-progress 보상 설계
R(t0) = Glp(t0) + λ · Ggt(t0) 형태의 보상으로 결정의 지연 효과를 반영하고 REINFORCE로 컨트롤러를 학습한다.
대규모 벤치마크에서의 성능 향상
Qwen3-1.7B/4B/8B에서 OPSD 대비 Average@12를 증가시키고, 4B 모델에서 65.65, 8B 모델에서 67.13의 평균 성능을 달성했다.
핵심 아이디어 이해하기
문제 정의: OPSD에서 교사가 reference solution의 전체 코드를 볼 때 생기는 student learning의 불일치를 확인한다. 해결 원리: α를 연속적으로 제어하고, beta 분포로 α를 샘플링하는 Beta-policy controller를 학습 상태에 조건화한다. 학습 진행에 따른 보상을 이용해 delayed credit을 학습에 반영한다. 변화점: 학습 regime에 따라 최적의 α가 다르며, interior 분포로 수렴하는 학습-상태 기반 노출 제어가 높은 성능 향상을 이끈다.
방법론
Exposure-Modulated Teacher: αt로 참조 solution의 reasoning prefix의 일부만 노출하도록 잘라 qαtT(x, y⋆)를 구성한다. final answer는 보존한다. Gradients는 pS에만 흐른다.
관련 Figure

Figure는 OPSD 백본, Exposure-modulated teacher, Beta exposure controller, closed-loop training을 연결하여 αt 샘플링과 hold-window, lookahead 보상의 흐름을 보여준다. 방법론 구성과 학습 피드백 흐름을 시각적으로 보강한다.
ATESD 아키텍처 개요 다이어그램
주요 결과
메인 벤치마크: Qwen3-1.7B에서 Average@12 44.35(OPSD 43.40 대비 +0.95), AIME24 59.17, AIME25 44.72, HMMT25 29.17. Qwen3-4B에서 Average@12 65.65(OPS D 63.60 대비 +2.05), AIME24 78.06, AIME25 71.39, HMMT25 47.50. Qwen3-8B에서 Average@12 67.13(OPS D 64.80 대비 +2.33).
기술 상세
Exposure-Modulated Teacher: αt를 truncation(y⋆, αt)으로 구성해 y~αt를 교사 프롬프트에 삽입하고, pαtT(·|x, y⋆, y<n)와 pS(·|x, y<n)을 비교하는 token-level KL을 손실로 사용한다. Beta Exposure Controller: st를 바탕으로 (at, bt) = 1 + softplus(fφ(st))이고 αt ∼ Beta(at, bt), αt은 [αmin, αmax] 사이로 잘린다. Hold window H 동안 αt를 고정하고, 이후 L-step lookahead를 통해 보상을 얻어 REINFORCE로 φ를 업데이트한다. 보상 R(t0) = Glp(t0) + λ gt Ggt(t0) 구성, 교사–학생Mismatch를 진짜 보상으로 사용하지 않고 진단 신호로 활용한다. 실험 설계는 100-step 예산, L=20의 lookahead를 사용하며 Qwen3-1.7B/4B/8B에서 벤치마크를 평가한다.
한계점
제한점으로는 현재 컨트롤러가 글로벌(단일 α) 수준에서 작동하며, 개별 샘플이나 문제 난이도에 따른 per-sample or difficulty-aware 노출 제어로 확장 가능하다. 보상은 고정 lookahead 윈도우를 기반으로 하며 counterfactual/model-based 보상 추정으로 보완할 수 있다.
실무 활용
ATESD는 OPSD 파이프라인에 적용 가능한 학습-상태 조건부 교사 노출 제어로, 추론 자기-증류의 성능 향상을 가능하게 한다.
- 온-정책 증류에서 교사 노출을 조절해 추론 성능을 올리는 경우
- 다른 문제 도메인에서 privileged context의 부분적 노출 제어를 실험하는 경우
- 교사-학생 상호작용이 중요한 지식 증류 파이프라인에 적용하는 경우
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.