핵심 요약
강력한 외부 교사 모델에 의존하지 않고 LLM이 생성한 데이터만으로 모델을 개선하는 Self-Distillation의 한계를 극복했습니다. 데이터의 신뢰성, 표현 정렬, 학습 안정성을 동시에 해결하여 자원 제약 환경에서도 효율적인 모델 고도화가 가능함을 입증했습니다.
왜 중요한가
강력한 외부 교사 모델에 의존하지 않고 LLM이 생성한 데이터만으로 모델을 개선하는 Self-Distillation의 한계를 극복했습니다. 데이터의 신뢰성, 표현 정렬, 학습 안정성을 동시에 해결하여 자원 제약 환경에서도 효율적인 모델 고도화가 가능함을 입증했습니다.
핵심 기여
통합 자기 증류 프레임워크 UniSD 제안
감독 신호의 신뢰성, 표현 정렬, 학습 안정성이라는 세 가지 핵심 축을 중심으로 기존의 파편화된 자기 증류 기법들을 하나의 체계적인 프레임워크로 통합했다.
Multi-Teacher Agreement 메커니즘 도입
동일한 모델에서 파생된 여러 보조 교사 뷰 간의 일관성을 측정하여, 신뢰할 수 없는 토큰이나 시퀀스에 대한 가중치를 낮춤으로써 노이즈 섞인 자기 감독 신호를 정제한다.
안정적인 학습을 위한 EMA Teacher 및 Clipping 기법 적용
학습 중 교사 모델의 급격한 변화를 방지하기 위해 지수 이동 평균(EMA)을 적용하고, 스타일적 차이로 인한 과도한 발산을 제어하는 Divergence Clipping을 통해 학습 안정성을 확보했다.
광범위한 벤치마크를 통한 성능 입증
6개 벤치마크와 3개 모델군에 걸친 실험 결과, 기본 모델 대비 평균 +5.4점, 기존 최상위 베이스라인 대비 +2.8점의 성능 향상을 달성했다.
핵심 아이디어 이해하기
기존의 자기 증류(Self-Distillation)는 모델이 스스로 내뱉은 답을 정답으로 삼아 다시 배우는 방식이다. 하지만 LLM은 자유로운 문장 생성을 하기 때문에 스스로 만든 답이 부분적으로 틀리거나 논리적 비약이 섞여 있을 수 있으며, 이를 그대로 학습하면 오류가 강화되는 문제가 발생한다.
UniSD는 이 문제를 해결하기 위해 '내부의 지혜'를 활용한다. 모델이 생성한 하나의 답변에 대해 여러 가지 프롬프트(예: 예시 추가, 지침 변경)를 적용한 여러 명의 '가상 교사'들이 검토하게 한다. 만약 여러 교사가 공통적으로 높은 확률을 부여하는 토큰이라면 신뢰할 수 있는 정보로 판단하고 학습 비중을 높이며, 의견이 갈리는 부분은 신뢰도가 낮은 것으로 간주해 학습에서 제외한다.
또한, 단순히 겉으로 보이는 텍스트 확률 분포만 맞추는 것이 아니라 모델 내부의 특징값(Feature)까지 일치시키고, 학습 과정에서 교사 모델이 너무 빨리 변하지 않도록 천천히 업데이트되는 EMA 방식을 도입했다. 결과적으로 모델은 외부의 도움 없이도 자신의 출력물 중 알짜배기 정보만 골라 학습하며 스스로 진화하게 된다.
방법론
UniSD는 세 가지 핵심 축을 기반으로 설계되었다. 첫째는 감독 신호의 신뢰성(Supervision Reliability)으로, Multi-Teacher Agreement를 통해 여러 보조 교사 뷰의 일관성을 측정한다. 각 교사 k가 토큰 t에 대해 부여하는 로그 확률 ℓ_t^k를 입력으로 하여 분산이나 범위를 계산하는 변동성 통계량 A({ℓ_t^k})를 수행해 신뢰도 가중치 w_t를 얻는다. 이 값이 작을수록 교사들 간의 의견이 일치함을 의미하며 학습 시 더 큰 비중을 갖는다.
둘째는 표현 정렬(Representation Alignment)이다. 출력 확률 분포뿐만 아니라 모델의 마지막 레이어 은닉 상태(Hidden State)를 직접 비교하는 Feature Matching 손실 함수 L_feat를 추가했다. 학생 모델의 특징 f_t^θ와 교사 모델의 특징 f_t^* 사이의 L2 거리 제곱을 계산하여 내부 구조의 일관성을 강제한다.
셋째는 학습 안정성(Training Stability)이다. 매 단계마다 학생 모델의 파라미터 θ_n을 지수 이동 평균하여 교사 모델 ¯θ_n = β¯θ_{n-1} + (1-β)θ_n을 갱신한다. 또한 토큰별 발산 값 D_t가 특정 임계값 κ를 넘지 않도록 min(D_t, κ) 연산을 수행하는 Divergence Clipping을 적용하여, 스타일 차이로 인한 비정상적인 그래디언트 발생을 억제한다.
관련 Figure

Multi-Teacher Agreement, EMA Teacher, Contrastive Learning 등 5가지 핵심 기법이 어떻게 상호작용하여 최종 손실 함수를 구성하는지 시각화한다. 특히 학생 모델의 온폴리시 롤아웃이 교사 모델들의 평가를 거쳐 가중치가 부여되는 과정을 명확히 설명한다.
UniSD 프레임워크의 전체 구조와 핵심 컴포넌트(A~E)를 보여주는 다이어그램이다.
주요 결과
Qwen2.5-7B 모델을 사용한 실험에서 UniSD* 통합 파이프라인은 ScienceQA, MBPP, ToolAlpaca 등 6개 벤치마크 평균 73.3점을 기록하여 원본 모델(67.9점) 대비 5.4점 향상되었다. 이는 기존의 강력한 베이스라인인 GKD(70.5점)보다도 2.8점 높은 수치이다.
Ablation Study 결과, EMA Teacher와 Multi-Teacher Agreement가 단일 컴포넌트로서 가장 큰 성능 향상을 견인하는 것으로 나타났다. 특히 ToolAlpaca와 같은 도구 사용 작업에서는 EMA Teacher가 원본 대비 +16.1점이라는 압도적인 개선을 보였다.
모델 크기별 확장성 실험에서도 0.5B부터 7B까지 모든 규모에서 일관된 성능 향상을 확인했다. 특히 UniSD*는 학습 후에도 원본 모델의 일반적인 생성 능력을 유지하는 지표인 Base-distribution Retention에서 SFT 대비 33.9% 낮은 perplexity를 기록하며 카타스트로픽 포게팅(Catastrophic Forgetting) 현상을 효과적으로 방지함을 증명했다.
관련 Figure

UniSD*가 모든 모델 규모에서 기존 SFT나 SDFT보다 높은 정확도 향상을 보임을 입증한다. 오른쪽 그래프는 UniSD가 원본 모델의 지식을 잃지 않으면서도 성능을 개선한다는 점을 Perplexity 지표로 보여준다.
모델 크기별 ScienceQA 및 GPQA 성능 향상 폭과 베이스 모델 대비 유지력을 보여주는 그래프이다.
기술 상세
UniSD는 온폴리시(On-policy) 궤적 위에서 동작하는 신뢰성 기반 자기 교정 프로세스로 정의된다. 학생 정책 π_θ가 생성한 샘플 ŷ에 대해 1차 교사 π_*가 감독을 제공하고, 다수의 보조 교사가 신뢰도를 평가하는 구조이다. Multi-Teacher Agreement는 토큰 레벨과 시퀀스 레벨의 두 가지 입도로 구현되어 국소적 노이즈와 전역적 불안정성을 동시에 제어한다.
Token-level Contrastive Learning은 긍정적 감독 신호 y+와 부정적 대안 y- 사이의 마진 기반 손실을 사용하여, 모델이 정답에 가까워지는 동시에 그럴듯하지만 틀린 오답과는 멀어지도록 유도한다. 이는 특히 코드 생성과 같이 구조는 비슷하지만 로직이 다른 작업에서 효과적이다.
구현 측면에서 모든 보조 교사 뷰는 동일한 모델 가중치를 공유하며 컨텍스트(Few-shot 예시 등)만 다르게 구성하여 배치 처리함으로써 GPU 메모리 점유율과 지연 시간을 최적화했다. 실험 결과 UniSD*는 단일 교사 방식 대비 약 21~28%의 메모리 오버헤드만으로 훨씬 높은 신뢰성을 확보했다.
관련 Figure

검색 기반(Retrieval) 컨텍스트가 ScienceQA 등에서 가장 강력한 성능을 보이지만, 작업 특성에 따라 랜덤이나 유도된(Induced) 지침이 더 효과적일 수 있음을 보여주며 전략적 선택의 중요성을 시사한다.
다양한 보조 컨텍스트 구성 전략(Random, Retrieval, Induced)에 따른 토큰 레벨 합의 성능 비교 레이더 차트이다.
한계점
본 연구는 주로 싱글 턴(Single-turn) 시나리오에 집중하고 있어, 여러 단계의 의사결정이 필요한 롱 호라이즌(Long-horizon) 에이전트 작업에서의 효과는 아직 충분히 검증되지 않았습니다. 또한 최종 답변의 정오표기 방식의 평가에 의존하고 있어, 중간 추론 단계의 논리적 타당성을 직접적으로 평가하는 세밀한 지표 도입이 향후 과제로 남아있습니다.
실무 활용
강력한 외부 모델(GPT-4 등)의 API 비용이 부담스럽거나 보안상 외부로 데이터를 보낼 수 없는 환경에서 자체 모델을 고도화할 때 매우 유용합니다.
- 폐쇄망 환경에서 운영되는 기업용 특화 LLM의 성능 개선
- 합성 데이터 생성 비용을 절감하고자 하는 모델 학습 파이프라인
- 특정 도메인(과학, 코딩 등)에 대한 모델의 추론 능력 강화
- 모델 학습 시 발생하는 스타일 붕괴 및 일반 능력 저하 방지
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.