사후 학습 과정에서 출력 다양성 붕괴는 어디에서 발생하는가?

언어 모델이 사후 학습(Post-training)을 거치며 출력이 획일화되는 '다양성 붕괴' 현상의 근본 원인을 분석한 논문입니다. 단순히 특정 알고리즘의 문제가 아니라 학습 데이터의 구성이 다양성 손실의 시점과 강도를 결정한다는 사실을 밝혀내어, 향후 더 창의적이고 유연한 AI 모델 개발을 위한 데이터 전략의 중요성을 시사합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

데이터 구성에 따른 다양성 붕괴 궤적 규명

Think(CoT 증류) 계열은 SFT 단계에서, Instruct(다중 소스) 계열은 DPO 단계에서 급격한 다양성 손실이 발생함을 확인했다. 이는 다양성 붕괴가 특정 알고리즘보다 상류 데이터의 구성에 의해 결정됨을 의미한다.

출력 형식과 모델 가중치의 영향 분리

추론 시 Chain-of-Thought 형식을 강제로 억제해도 출력 다양성이 회복되지 않음을 입증했다. 이를 통해 다양성 붕괴가 단순한 생성 형식의 제약이 아니라 학습 과정에서 모델 가중치에 내재화된 결과임을 확인했다.

다양성 손실의 품질 제어 및 잔차 성분 분해

다양성 감소를 오답 제거에 의한 효과와 정답 내에서의 획일화(잔차 성분)로 분해하여 분석했다. 수학 과제에서는 오답 제거가 주된 원인이지만, 요약이나 창의적 글쓰기에서는 정답 간의 유사도가 높아지는 실질적 획일화가 지배적이었다.

핵심 아이디어 이해하기

언어 모델은 학습 데이터의 확률 분포를 모사하도록 설계되어 있다. 기본 모델(Base Model)은 인터넷의 방대한 데이터를 학습하여 매우 넓은 출력 분포를 가지지만, 사후 학습 단계에서 특정 교사 모델의 답변을 복제하는 SFT(Supervised Fine-tuning)를 거치면 모델의 Softmax 출력 분포가 특정 정답 근처로 급격히 좁아지게 된다.

특히 소수의 교사 모델로부터 생성된 데이터를 학습할 경우, 모델은 교사 모델이 선호하는 특정 표현 양식과 논리 구조를 정답으로 인식하고 그 외의 가능성을 배제한다. 이는 Gradient Descent 과정에서 모델의 가중치가 데이터에 존재하는 좁은 모드(Mode)를 향해 수렴하기 때문이며, 결과적으로 임베딩 공간상에서 출력값들이 서로 매우 가까운 위치에 놓이게 되는 '모드 붕괴' 현상을 초래한다.

이러한 변화는 단순한 겉모습의 변화가 아니라 모델이 세상을 해석하고 문장을 생성하는 내부 로직 자체가 단순화된 결과이다. 따라서 추론 시점에 프롬프트를 바꾸거나 형식을 강제하더라도, 이미 좁아진 가중치 분포 내에서는 원래의 풍부한 표현력을 되찾을 수 없다는 것이 이 논문의 핵심 통찰이다.

방법론

Olmo 3 7B 모델을 기반으로 세 가지 병렬 사후 학습 라인(Think, Instruct, RL-Zero)을 구축하여 비교 분석했다. Think 라인은 CoT 증류 데이터를, Instruct 라인은 GPT-3.5/4 등 다중 소스 데이터를 사용했으며, RL-Zero는 SFT와 DPO를 생략하고 기본 모델에서 직접 강화학습을 수행했다.

다양성 측정을 위해 네 가지 상호 보완적 지표를 사용했다. 어휘적 다양성을 위한 EAD, 의미적 유사도를 측정하는 SBERT 코사인 거리, 논리적 모순 여부를 판별하는 NLI 점수, 그리고 유효한 출력 모드의 수를 계산하는 Vendi Score를 적용했다. [K개의 출력 샘플을 입력으로] → [SBERT 임베딩 간의 코사인 유사도 행렬을 계산하여] → [고윳값 엔트로피를 산출하고] → [이를 통해 실질적으로 구별되는 답변의 개수를 의미하는 Vendi Score를 도출한다].

또한 'Think-not-thinking' 실험을 통해 CoT 형식을 강제로 제거하는 개입을 수행했다. [ 태그를 미리 채워 넣어 모델이 바로 답변하도록 유도하고] → [생성된 최종 답변의 다양성을 측정하여] → [CoT 형식이 다양성 붕괴의 원인인지 아니면 가중치 자체의 문제인지를 판별했다].

관련 Figure

#4Chart
전체 다양성 감소 중 오답 제거(회색)와 정답 내 획일화(유색)의 비중을 보여준다. 과제마다 비중이 다르며, 특히 HumanEval과 같은 코드 과제에서는 정답 간의 다양성이 매우 낮아지는 '진정한 획일화'가 심각함을 확인할 수 있다.
6개 검증 가능 과제에 대한 품질 필터링된 Vendi Score 비교

주요 결과

Think 계열 모델은 SFT 단계에서 기본 모델 대비 평균 62%의 SBERT 다양성을 상실한 반면, Instruct 계열은 38% 감소에 그쳤다. 그러나 Instruct 모델은 이후 DPO 단계에서 추가로 23%의 다양성을 잃으며 Think 모델과 유사한 수준으로 수렴했다. 이는 데이터의 폭이 붕괴의 시점을 결정함을 보여준다.

RL-Zero 모델은 사후 학습 과정에서 발생하는 급격한 다양성 붕괴를 피하며 기본 모델의 다양성을 93% 수준으로 유지했다. 하지만 이는 품질 저하를 동반했으며, 특히 창의적 글쓰기 과제에서 기본 모델 대비 승률이 50%에 머물러 품질과 다양성 사이의 뚜렷한 트레이드오프를 확인했다.

수학 과제(GSM8K)에서는 다양성 붕괴가 심각하여 16개의 샘플을 추출해도 실질적인 의미 차이가 있는 답변은 1.3개에 불과했다. 반면 IFEval과 같은 지시 이행 과제에서는 2.1~2.3개의 모드를 유지하며 상대적으로 붕괴가 덜 발생했다.

관련 Figure

#1Chart
Think 모델(주황색)은 SFT 단계에서 급격히 하락하는 반면, Instruct 모델(파란색)은 DPO 단계에서 더 큰 하락을 보임을 시각적으로 증명한다. 특히 EAD(어휘 다양성)는 유지되더라도 SBERT(의미 다양성)가 붕괴되는 양상을 통해 붕괴의 본질이 의미적 획일화에 있음을 보여준다.
15개 과제에 대한 SBERT, EAD, Vendi Score 지표의 사후 학습 단계별 변화 그래프

#5Chart
다양성이 붕괴된 모델(Think 등)은 샘플링을 늘려도 다수결 투표를 통한 성능 향상이 미미함을 보여준다. 반면 다양성이 보존된 RL-Zero 모델은 동일한 정확도에서도 샘플링을 통해 더 큰 성능 향상을 얻을 수 있음을 입증한다.
정확도와 다수결 투표(Majority Voting) 이득 사이의 관계도

기술 상세

본 연구는 사후 학습의 세 단계(SFT, DPO, RL)가 출력 분포에 미치는 영향을 정량적으로 추적했다. 특히 DPO의 비대칭적 영향력을 발견했는데, 이미 SFT에서 붕괴된 모델(Think)에는 DPO가 거의 영향을 주지 않지만, 잔여 다양성이 있는 모델(Instruct)에서는 DPO가 꼬리 분포를 공격적으로 제거하며 획일화를 가속한다.

수학적 분석을 통해 SFT의 Cross-entropy Loss가 저엔트로피 타겟 분포를 학습할 때 발생하는 Maximum Likelihood Estimation의 한계를 지적했다. 또한 DPO의 Reverse-KL 목적 함수가 본질적으로 Mode-seeking 특성을 가져, 선택된 답변과 거부된 답변 사이의 보상 격차를 줄이는 방향으로 작동하며 분포를 좁히는 메커니즘을 설명했다.

RL 단계에서는 KL 페널티가 없는 GRPO 변형을 사용할 경우 붕괴된 분포에서 새로운 모드를 재발견할 수 있는 가능성을 확인했으나, 그 회복 수준은 미미했다(약 +4%). 이는 사후 학습 초기 단계인 SFT에서의 데이터 구성이 전체 파이프라인의 다양성 하한선(Floor)을 결정짓는 결정적 요인임을 시사한다.

관련 Figure

#2Chart
Think 모델이 Instruct 모델보다 더 높은 NLI 다양성을 유지함을 보여준다. 이는 Think 모델이 겉으로는 획일화되어 보여도 CoT를 통해 논리적 구조를 보존함으로써 서로 모순되는 주장을 생성할 수 있는 능력을 상대적으로 더 잘 유지하고 있음을 시사한다.
다양한 과제에서 모델별 NLI 다양성 분포도

한계점

본 연구는 최종 답변의 다양성에 집중하고 있으며, 추론 과정(Reasoning Path) 자체의 다양성은 측정하지 않았다. 또한 데이터 구성 개입을 직접적으로 수행하기보다 기존에 공개된 모델 체크포인트의 라인업을 분석하는 방식을 취했으므로, 특정 데이터 변수와 붕괴 사이의 인과관계를 완전히 통제된 환경에서 실험하지는 못했다.

실무 활용

모델의 창의성과 샘플링 효율을 중시하는 실무 환경에서 사후 학습 데이터 구성 전략을 수립하는 데 중요한 지침을 제공합니다.

창의적 글쓰기나 브레인스토밍용 모델 학습 시 단일 교사 모델의 증류 데이터 대신 최대한 다양한 출처의 데이터를 혼합하여 SFT 수행
Self-consistency나 Majority Voting의 효율을 높이기 위해 RLHF 과정에서 KL 페널티를 완화하거나 제거하여 출력 다양성 확보
추론 시 CoT를 억제하는 것만으로는 다양성을 회복할 수 없으므로, 학습 단계에서부터 데이터 소스를 다양화하는 근본적 접근 필요

코드 공개 여부: 공개

코드 저장소 보기

키워드

Post-training(사후 학습)Diversity Collapse(다양성 붕괴)CoT Distillation(사고 사슬 증류)SFT(지도 미세 조정)DPO(직접 선호도 최적화)Vendi Score(벤디 스코어)

사후 학습 과정에서 출력 다양성 붕괴는 어디에서 발생하는가?

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

데이터 구성에 따른 다양성 붕괴 궤적 규명

출력 형식과 모델 가중치의 영향 분리

다양성 손실의 품질 제어 및 잔차 성분 분해

핵심 아이디어 이해하기

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

관련 Figure

한계점

실무 활용

모델의 창의성과 샘플링 효율을 중시하는 실무 환경에서 사후 학습 데이터 구성 전략을 수립하는 데 중요한 지침을 제공합니다.

창의적 글쓰기나 브레인스토밍용 모델 학습 시 단일 교사 모델의 증류 데이터 대신 최대한 다양한 출처의 데이터를 혼합하여 SFT 수행
Self-consistency나 Majority Voting의 효율을 높이기 위해 RLHF 과정에서 KL 페널티를 완화하거나 제거하여 출력 다양성 확보
추론 시 CoT를 억제하는 것만으로는 다양성을 회복할 수 없으므로, 학습 단계에서부터 데이터 소스를 다양화하는 근본적 접근 필요

코드 공개 여부: 공개

코드 저장소 보기

키워드

Post-training(사후 학습)Diversity Collapse(다양성 붕괴)CoT Distillation(사고 사슬 증류)SFT(지도 미세 조정)DPO(직접 선호도 최적화)Vendi Score(벤디 스코어)

사후 학습 과정에서 출력 다양성 붕괴는 어디에서 발생하는가?

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

사후 학습 과정에서 출력 다양성 붕괴는 어디에서 발생하는가?

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드