핵심 요약
온-폴리시 증류(On-Policy Distillation)는 학생 모델이 직접 생성한 궤적을 고성능 교사 모델이 토큰별로 평가하여 학습하는 기법이다. 기존 강화학습(RL)이 에피소드당 소량의 비트만 학습하는 희소한 피드백 문제를 겪는 것과 달리, 이 방식은 모든 토큰에 대해 밀도 높은 보상 신호를 제공한다. 연구 결과, 수학 추론 및 개인화 비서 학습에서 RL 대비 50~100배의 계산 효율 향상을 보였으며, 특히 새로운 지식 학습 시 발생하는 기존 능력의 망각 문제를 효과적으로 복구했다. 이는 소형 모델이 프라이버시와 비용 효율성을 유지하면서도 프런티어 모델급 성능에 도달하게 돕는 강력한 사후 학습 도구이다.
배경
LLM 사후 학습(Post-training) 개념, 강화학습(RL) 및 SFT의 차이점, KL Divergence(KL 발산)에 대한 기본 이해
대상 독자
소형 LLM을 특정 도메인에 최적화하거나 제한된 컴퓨팅 자원으로 고성능 추론 모델을 구축하려는 AI 엔지니어 및 연구자
의미 / 영향
이 기술은 고비용의 강화학습 없이도 소형 모델의 성능을 프런티어 모델 수준으로 끌어올릴 수 있는 실질적인 경로를 제시합니다. 특히 기업 내부 데이터를 학습시키면서도 모델의 범용적인 대화 능력을 유지해야 하는 실무 환경에서 표준적인 사후 학습 방법론으로 자리 잡을 가능성이 높습니다.
섹션별 상세

실무 Takeaway
- 반복적인 시스템 프롬프트나 특정 도메인 지식이 필요한 RAG 환경에서 온-폴리시 증류를 적용하면 소형 모델로도 대형 모델의 추론 성능을 90% 이상 저렴하게 구현할 수 있다.
- 지속적 학습(Continual Learning) 시 발생하는 성능 저하를 막기 위해, 새로운 데이터 학습 단계와 이전 능력을 복구하는 온-폴리시 증류 단계를 교차로 배치하는 전략이 유효하다.
- RL 적용 시 보상 모델 설계나 데이터 수집에 어려움이 있다면, 기존 고성능 모델(예: Qwen3-32B)을 교사로 활용한 토큰 단위 KL 발산 최소화 방식이 훨씬 빠르고 안정적인 대안이 된다.
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.