Self-Distillation Zero: 이진 보상을 조밀한 지도 학습으로 변환하는 자기 수정 기법

대형 언어 모델의 추론 능력을 강화하기 위해 기존에는 사람이 작성한 고품질 정답지나 외부 모델의 피드백이 필수적이었으나, 이 논문은 모델이 자신의 오답을 스스로 수정하는 과정만으로도 성능을 크게 높일 수 있음을 증명했다. 이는 데이터 수집 비용을 획기적으로 줄이면서도 모델의 추론 효율성을 동시에 개선할 수 있는 새로운 학습 패러다임을 제시한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

Self-Distillation Zero (SD-ZERO) 프레임워크 제안

외부 교사 모델이나 고품질 시연 데이터 없이, 단일 모델이 생성자와 수정자 역할을 동시에 수행하며 이진 보상(정답/오답)을 토큰 단위의 조밀한 지도 신호로 변환하는 2단계 학습 체계를 구축했다.

Self-Revision Training (SRT)을 통한 수정 능력 확보

모델이 자신의 초기 응답과 정답 여부를 입력받아 오답을 수정하거나 정답을 재구성하도록 학습시켜, 모델 내부에 잠재된 자기 수정 능력을 명시적으로 끌어냈다.

On-Policy Self-Distillation을 이용한 추론 효율화

학습된 수정자의 지식을 생성자에게 증류(Distillation)하여, 모델이 여러 번의 수정 과정을 거치지 않고도 한 번에 더 정확하고 간결한 응답을 생성하도록 최적화했다.

수학 및 코딩 벤치마크에서 10% 이상의 성능 향상

Qwen3-4B 및 Olmo-3-7B 모델을 대상으로 실험한 결과, 기본 모델 대비 성능이 10% 이상 향상됐으며 GRPO, RFT 등 기존 강한 베이스라인보다 높은 샘플 효율성을 보였다.

핵심 아이디어 이해하기

강화학습(RL)에서 흔히 쓰이는 이진 보상은 최종 결과가 맞았는지 틀렸는지만 알려줄 뿐, 추론 과정 중 어느 부분이 잘못되었는지에 대한 구체적인 정보를 주지 않는 '희소한(Sparse)' 신호이다. 이로 인해 모델은 방대한 탐색 과정을 거쳐야 하며 학습 효율이 떨어진다. SD-ZERO는 모델이 자신의 오답을 보고 '어디가 틀렸으니 다시 풀어보자'라고 스스로 교정하는 과정을 학습 데이터로 활용하여, 이 희소한 신호를 토큰 단위의 '조밀한(Dense)' 신호로 바꾼다.

먼저 모델에게 오답과 함께 '이것은 틀렸으니 다시 시작하라'는 프롬프트를 주어 스스로 정답을 찾아가게 하는 SRT 단계를 거친다. 이때 모델은 오답이라는 맥락 속에서 정답으로 가는 경로를 학습하며, 특정 토큰이 오류의 핵심임을 인지하는 '토큰 수준의 자기 국소화(Self-localization)' 능력을 갖추게 된다. 이는 단순한 정답 암기가 아니라 오류를 식별하고 수정하는 논리적 구조를 내재화하는 과정이다.

마지막으로 이렇게 강화된 수정 능력을 다시 생성 모델에 주입한다. 결과적으로 모델은 내부적으로 오류 가능성을 미리 예측하고 회피하며, 수정 과정을 거치지 않고도 처음부터 정답에 가까운 짧고 강력한 추론 경로를 생성하게 된다. 이는 복잡한 외부 피드백 루프 없이 모델 스스로 진화하는 '자기 진화(Self-evolution)'의 원리를 보여준다.

방법론

SD-ZERO는 크게 두 단계의 파이프라인으로 구성된다. 첫 번째 단계인 Self-Revision Training (SRT)에서는 모델이 생성한 초기 응답 y_init에 대해 이진 보상 r을 확인한다. r=0(오답)이면 '다시 시작하라', r=1(정답)이면 '다시 서술하라'는 제어 프롬프트 P_r을 생성하고, 모델이 이를 바탕으로 수정된 응답 y_revised를 생성하도록 학습시킨다. 이때 손실 함수 LSRT는 수정 손실(L_revision)과 생성 손실(L_generation)의 합으로 정의되며, 모델이 입력 x만으로도 정답을 내는 능력과 오답을 보고 수정하는 능력을 동시에 갖추게 한다.

두 번째 단계인 On-Policy Self-Distillation에서는 SRT로 학습된 모델을 교사(Teacher)로 고정하고, 현재 학습 중인 학생(Student) 모델이 생성한 응답에 대해 교사가 토큰별 확률 분포를 제공한다. 학생 모델은 교사의 분포를 모방하도록 KL Divergence 손실을 최소화하며 학습한다. [학생의 토큰 확률 분포와 교사의 토큰 확률 분포를 입력으로] → [두 분포 사이의 KL Divergence를 계산하여] → [차이값을 손실로 출력하고] → [이 값이 작아지도록 가중치를 갱신하여] 학생 모델이 교사의 정교한 수정 지식을 내재화하게 한다.

이 과정에서 교사 모델은 학생의 응답과 보상을 모두 보고 피드백을 주므로, 단순한 정답 복사가 아니라 학생의 현재 상태에 최적화된 지도를 제공한다. 또한 정기적으로 교사 모델을 최신 학생 모델로 업데이트하는 '교사 동기화(Teacher Synchronization)'를 통해 모델이 반복적으로 성능을 개선하는 반복적 자기 진화 구조를 완성한다.

주요 결과

Qwen3-4B-Instruct 모델 기준, SD-ZERO는 수학 및 코딩 벤치마크 평균 점수에서 기본 모델(49.8%) 대비 10.5%p 상승한 60.3%를 기록했다. 이는 동일한 데이터 예산을 사용한 GRPO(53.1%)나 SDFT(51.2%)보다 월등히 높은 수치이다. 특히 AIME24 벤치마크에서는 기본 모델 59.6%에서 68.3%로 크게 도약하며 어려운 추론 문제에서 강점을 보였다.

Ablation Study 결과, SRT 단계 없이 증류(Distillation)만 수행할 경우 성능 향상이 미미하여(49.8% → 51.4%), 모델이 스스로 오류를 수정할 수 있는 기초 체력을 먼저 기르는 것이 필수적임이 확인됐다. 또한 SD-ZERO를 거친 모델은 SRT 모델보다 응답 길이를 약 2배 짧게 유지하면서도 더 높은 정확도를 달성하여, 추론 효율성 측면에서도 우수함을 입증했다.

시각화 분석(Figure 4)을 통해 수정자 모델의 피드백이 오답 토큰에 집중되는 '자기 국소화' 현상이 관찰됐다. 오답 응답의 경우 특정 오류 지점에서 KL Divergence 값이 급격히 상승하며 모델이 어느 부분을 고쳐야 할지 정확히 짚어내는 모습을 보였다. 반면 정답 응답에 대해서는 보상이 고르게 분포되어 기존의 정답 경로를 보존하는 역할을 수행했다.

기술 상세

SD-ZERO의 핵심 아키텍처는 단일 모델의 다중 역할 수행과 온폴리시(On-policy) 증류에 기반한다. SRT 단계에서 사용되는 L_generation 손실은 y' = [y_init, P_r, y_revised] 전체 시퀀스에 대해 계산되어 모델의 기본 생성 능력을 유지한다. 반면 L_revision은 P_r 이후의 y_revised 부분에만 집중하여 수정 메커니즘을 강화한다. 이 두 손실의 결합은 모델이 추론 시 스스로를 평가하고 필요할 때 수정 행동을 유발하는 암시적 트리거를 형성한다.

Phase 2의 증류 과정은 기존의 오프폴리시(Off-policy) 방식과 달리, 학생 모델이 현재 정책에서 샘플링한 응답을 교사가 실시간으로 평가하는 방식을 취한다. 이는 학습과 추론 사이의 분포 불일치(Distribution Mismatch) 문제를 해결한다. 교사 모델은 고정된 파라미터 θ_SRT를 사용하지만, 입력으로 학생의 최신 응답을 받으므로 동적인 피드백이 가능하다. 수학적으로는 각 토큰 위치 t에서 교사와 학생의 출력 분포 사이의 KL Divergence를 최소화하는 목적 함수를 사용한다.

이 연구는 또한 '토큰 수준의 자기 국소화'를 정량화했다. 오답 시퀀스에서 소수의 토큰이 전체 KL Divergence의 대부분을 차지한다는 발견은, 모델이 이진 보상만으로도 오류의 근본 원인(Root Cause)을 식별할 수 있음을 시사한다. 이는 별도의 프로세스 보상 모델(PRM) 없이도 중간 추론 단계에 대한 세밀한 감독이 가능함을 의미하며, 향후 비검증 도메인으로의 확장을 위한 이론적 토대를 제공한다.

한계점

본 연구는 수학 및 코딩과 같이 정답 여부를 명확히 판별할 수 있는 '검증 가능한(Verifiable)' 도메인에 한정되어 있다. 일반적인 글쓰기나 대화와 같이 보상이 주관적인 영역에서는 이진 보상을 정의하기 어렵다는 한계가 있다. 또한, 현재는 비교적 짧고 간결한 응답을 생성하는 인스트럭트 모델에 최적화되어 있으며, 매우 긴 사고 과정을 거치는 'Thinking Model'에 적용할 경우 성능 저하가 관찰되어 이에 대한 추가 연구가 필요하다.

실무 활용

SD-ZERO는 외부 데이터 의존도를 낮추면서 모델의 추론 성능을 고도화하려는 기업이나 연구소에 즉각적인 효용을 제공한다. 특히 정답 여부를 자동으로 검증할 수 있는 수학, 코딩, 논리 퍼즐 도메인에서 파인튜닝 비용을 절감하는 데 효과적이다.

수학 및 과학 문제 풀이 서비스에서 모델의 단계별 추론 정확도 향상 및 응답 속도 최적화
코드 생성 도구에서 실행 결과(Unit Test)를 바탕으로 모델이 스스로 버그를 수정하도록 학습시키는 파이프라인 구축
데이터가 부족한 특정 도메인에서 모델이 생성한 데이터를 스스로 정제하여 고품질 학습 데이터를 확보하는 합성 데이터 생성 엔진
추론 비용이 제한된 환경에서 긴 사고 과정(Chain-of-Thought)을 짧고 효율적인 경로로 압축하는 모델 경량화

코드 공개 여부: 비공개

키워드

Self-Distillation(자기 증류)Self-Revision(자기 수정)Binary Reward(이진 보상)Dense Supervision(조밀한 지도)Reasoning(추론)On-Policy(온폴리시)

Self-Distillation Zero: 이진 보상을 조밀한 지도 학습으로 변환하는 자기 수정 기법

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

Self-Distillation Zero (SD-ZERO) 프레임워크 제안

Self-Revision Training (SRT)을 통한 수정 능력 확보

On-Policy Self-Distillation을 이용한 추론 효율화

수학 및 코딩 벤치마크에서 10% 이상의 성능 향상

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

수학 및 과학 문제 풀이 서비스에서 모델의 단계별 추론 정확도 향상 및 응답 속도 최적화
코드 생성 도구에서 실행 결과(Unit Test)를 바탕으로 모델이 스스로 버그를 수정하도록 학습시키는 파이프라인 구축
데이터가 부족한 특정 도메인에서 모델이 생성한 데이터를 스스로 정제하여 고품질 학습 데이터를 확보하는 합성 데이터 생성 엔진
추론 비용이 제한된 환경에서 긴 사고 과정(Chain-of-Thought)을 짧고 효율적인 경로로 압축하는 모델 경량화

코드 공개 여부: 비공개

키워드

Self-Distillation(자기 증류)Self-Revision(자기 수정)Binary Reward(이진 보상)Dense Supervision(조밀한 지도)Reasoning(추론)On-Policy(온폴리시)

Self-Distillation Zero: 이진 보상을 조밀한 지도 학습으로 변환하는 자기 수정 기법

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

Self-Distillation Zero: 이진 보상을 조밀한 지도 학습으로 변환하는 자기 수정 기법

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드