핵심 요약
LLM이 스스로 문제를 풀며 학습할 때, 정답만 반복 학습하면 사고의 다양성이 사라지고 오답에서 교사 모델을 무조건 따라 하면 잘못된 지식까지 배우게 되는 문제가 있었다. 이 논문은 정답과 오답을 구분하여 각각 학생과 교사의 확신도에 따라 학습 강도를 조절함으로써 추론 능력과 다양성을 동시에 잡는 해결책을 제시한다.
왜 중요한가
LLM이 스스로 문제를 풀며 학습할 때, 정답만 반복 학습하면 사고의 다양성이 사라지고 오답에서 교사 모델을 무조건 따라 하면 잘못된 지식까지 배우게 되는 문제가 있었다. 이 논문은 정답과 오답을 구분하여 각각 학생과 교사의 확신도에 따라 학습 강도를 조절함으로써 추론 능력과 다양성을 동시에 잡는 해결책을 제시한다.
핵심 기여
신호 품질 이질성에 대한 실증적 분석
온폴리시 증류 과정에서 교사와 학생 모델의 Perplexity가 각각 오답 교정 능력과 정답의 학습 가치를 예측하는 신뢰할 수 있는 지표임을 입증했다.
SCOPE 이중 경로 적응형 프레임워크
정답 궤적은 학생의 불확실성에 따라 가중치를 두는 MLE 경로로, 오답 궤적은 교사의 확신도에 따라 가중치를 두는 KL Distillation 경로로 분리하여 학습하는 구조를 설계했다.
Pass@k 역설 해결 및 추론 다양성 보존
단순 반복 학습으로 인해 발생하는 모드 붕괴(Mode Collapse)를 방지하여, Pass@1 성능뿐만 아니라 여러 번 시도했을 때 정답을 맞출 확률인 Pass@32 성능을 대폭 개선했다.
핵심 아이디어 이해하기
기존의 온폴리시 학습은 모델이 내놓은 모든 결과에 동일한 중요도를 부여했다. 하지만 학생 모델이 이미 완벽하게 마스터한 정답을 계속 학습하는 것은 시간 낭비이며, 오히려 특정 답변 방식에만 집착하게 만들어 사고의 유연성을 해친다. 반대로 오답을 교정할 때 교사 모델조차 헷갈려 하는 모호한 가이드를 무비판적으로 수용하면 모델의 지능이 오히려 퇴보하는 현상이 발생한다.
SCOPE는 이를 해결하기 위해 '신호의 품질'에 주목한다. 정답을 맞혔을 때는 학생 모델이 스스로 '자신 없게(High Perplexity)' 맞힌 경로에 더 큰 가중치를 두어 학습의 경계선을 확장한다. 이는 이미 아는 것을 복습하기보다 모르는 부분을 집중 공략하는 것과 같다. 반대로 오답일 때는 교사 모델이 '확신을 가지고(Low Perplexity)' 설명하는 경우에만 그 신호를 강하게 반영하고, 교사조차 갈팡질팡하는 노이즈 섞인 신호는 과감히 무시한다.
결과적으로 모델은 정답 경로에서는 새로운 해결 방식을 탐색할 동력을 얻고, 오답 경로에서는 확실한 교정 정보만을 흡수하게 된다. 이러한 이중 경로 접근법은 모델이 정답에만 매몰되지 않으면서도 논리적 오류를 효과적으로 수정할 수 있게 유도한다.
관련 Figure

교사 모델의 PPL이 낮을수록(Q1) 학생의 오답을 정답으로 교정하는 비율이 월등히 높음을 보여준다. 이는 교사의 확신도가 낮은 구간(Q4)의 신호는 노이즈에 가깝다는 논문의 가설을 수치적으로 뒷받침한다.
교사 모델의 Perplexity에 따른 오류 복구율 차이 그래프
방법론
전체 접근 방식은 Outcome-Driven Group Branching으로 시작한다. 입력 프롬프트 x에 대해 학생 모델이 N개의 응답을 생성하면, 검증기(Verifier)를 통해 정답 집합(Ωc)과 오답 집합(Ωw)으로 즉시 분리한다. [N개의 응답 생성 → 이진 보상 판별 → 두 그룹으로 라우팅]
정답 집합에 대해서는 Valid Trajectory Exploitation을 수행한다. 이때 학생 모델의 Perplexity를 기반으로 가중치 w_stu를 계산한다. [학생 모델의 로그 확률 입력 → 길이 정규화 및 Softmax 연산 → 가중치 출력] 이 가중치는 모델이 확신하지 못했던 정답 경로에 더 높은 점수를 부여하여, 모델이 다양한 정답 경로를 학습하도록 유도한다.
오답 집합에 대해서는 Flawed Trajectory Rectification을 적용한다. 교사 모델의 Perplexity를 역수로 취해 가중치 w_tea를 산출한다. [교사 모델의 로그 확률 입력 → 지수 함수를 통한 확신도 증폭 → 가중치 출력] 교사가 해당 오답을 명확히 교정할 수 있을 때만 KL Distillation 손실 함수를 강하게 적용하여, 잘못된 접두사(Prefix)로 인한 노이즈 전파를 차단한다.
최종적으로 SCOPE Loss는 이 두 경로의 가중치 합으로 정의된다. 각 그룹 내에서 가중치 분포를 정규화하는 DPAW(Dual-Perspective Adaptive Weighting) 메커니즘을 통해 프롬프트별 난이도 차이를 보정하며, 단일 목적 함수 내에서 효율적인 최적화를 수행한다.
관련 Figure

표준 OPD는 모든 샘플에 균일한 감독을 적용하지만, SCOPE는 정답(Ωc)과 오답(Ωw)으로 경로를 나누고 각각 학생/교사 PPL 기반 가중치를 적용하는 2단계 구조를 보여준다. 이 시각화는 논문의 핵심인 이중 경로 적응형 가중치(DPAW) 메커니즘을 명확히 설명한다.
표준 OPD와 SCOPE의 학습 구조 비교 다이어그램
주요 결과
DeepSeek-R1-Distill-Qwen-1.5B 모델을 학생으로 사용한 실험에서, SCOPE는 6개 수학 추론 벤치마크 평균 Avg@32 성능을 기존 OPD 대비 5.54% 향상시켰다. 특히 Olympiad Bench에서는 10.69%, AMC23에서는 6.59%의 높은 성능 향상을 기록했다.
Pass@k 역설 해결 측면에서도 뛰어난 성과를 보였다. 기존 GRPO나 OPD 방식은 Pass@1은 오르지만 Pass@32가 떨어지는 성능 정체 현상을 보였으나, SCOPE는 Qwen3-1.7B-Base 모델 기준 Pass@32를 4.83% 추가 개선하며 사고의 다양성이 보존됨을 증명했다.
Ablation Study 결과, DPAW 메커니즘을 제거했을 때 AIME25 Pass@32 성능이 50.9%에서 45.7%로 급감했다. 이는 학생 가중치와 교사 가중치가 상호 보완적으로 작용하여 모델의 탐색 능력과 정확도를 동시에 유지하는 데 필수적임을 시사한다.
기술 상세
SCOPE의 핵심 아키텍처는 온폴리시 샘플링 기반의 이중 가중치 시스템이다. 기존의 On-Policy Distillation이 교사 모델의 분포를 무조건적으로 추종하게 하여 학생 모델의 고유한 탐색 능력을 억제하는 문제를 Forward KL Divergence의 가중치 조절로 해결했다.
수학적으로는 학생 모델의 Perplexity(PPLs)를 직접 가중치로 사용하는 정답 경로와, 교사 모델의 Perplexity(PPLt)의 역수를 사용하는 오답 경로를 통합했다. 이때 온도 파라미터 τ=1.0을 사용하여 가중치 분포의 선명도를 조절하며, 이는 노이즈 필터링과 다양성 보존 사이의 최적 균형점임이 실험적으로 확인됐다.
구현 측면에서는 16개의 A100 GPU를 사용하여 학생 모델을 학습시키고, 4개의 GPU를 교사 모델 추론에 할당하는 분산 학습 구조를 채택했다. 교사 모델의 점수 계산(Teacher Scoring) 과정에서 발생하는 추가 연산 비용은 비동기 전략을 통해 최적화 가능함을 제시했다.
한계점
본 논문은 교사 모델의 쿼리 비용으로 인한 추가적인 학습 시간 오버헤드를 한계로 언급했다. 또한, 현재의 동기식 학습 구조에서는 롤아웃 생성과 교사 로그 확률 획득 시간이 겹치지 않아 효율성이 저하될 수 있으며, 이를 해결하기 위한 비동기 전략의 실제 구현 결과는 향후 과제로 남겨두었다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.