핵심 요약
LLM이 새로운 지식을 배울 때 기존에 알고 있던 사실을 틀리게 대답하는 할루시네이션 현상이 발생하는 근본 원인을 규명했다. 파인튜닝 과정에서 발생하는 지식 간섭을 지속 학습 관점에서 해석하고, 자기 증류 기법을 통해 기존 지식 보존과 새 지식 습득을 동시에 달성할 수 있음을 입증했다.
왜 중요한가
LLM이 새로운 지식을 배울 때 기존에 알고 있던 사실을 틀리게 대답하는 할루시네이션 현상이 발생하는 근본 원인을 규명했다. 파인튜닝 과정에서 발생하는 지식 간섭을 지속 학습 관점에서 해석하고, 자기 증류 기법을 통해 기존 지식 보존과 새 지식 습득을 동시에 달성할 수 있음을 입증했다.
핵심 기여
SFT 유도 할루시네이션의 재정의
SFT 과정에서 발생하는 할루시네이션을 단순한 오류가 아닌, 새로운 지식 습득 과정에서 발생하는 '사실적 망각(Factual Forgetting)' 현상으로 정의하고 지속 학습(Continual Learning) 프레임워크로 분석했다.
자기 증류 기반의 할루시네이션 완화 기법
학습 중 출력 분포의 변화를 제한하는 Self-Distillation 기법을 적용하여, 새로운 사실 습득 성능은 유지하면서도 기존 지식에 대한 망각률을 기존 15% 수준에서 3% 수준으로 대폭 낮췄다.
의미론적 간섭 메커니즘 규명
할루시네이션이 발생하는 주요 원인이 모델의 용량 부족이 아니라, 기존 지식과 새로운 지식 간의 의미론적 표현 중첩(Semantic Overlap)으로 인한 국소적 간섭임을 실험적으로 증명했다.
핵심 아이디어 이해하기
LLM의 지식은 파라미터 내부의 고차원 벡터 공간에 저장된다. SFT를 통해 새로운 사실을 학습하면 모델의 가중치가 업데이트되는데, 이때 새로운 데이터의 토큰 구조가 기존에 알고 있던 데이터와 유사하면(Semantic Overlap) 가중치 업데이트 방향이 겹치게 된다.
기존 모델은 새로운 사실을 배우기 위해 가중치를 수정하는 과정에서 기존 지식을 저장하던 영역을 덮어쓰게 되며, 이는 곧 이전에 맞혔던 질문에 오답을 내놓는 할루시네이션으로 이어진다. 이는 마치 비슷한 이름의 도시 이름을 새로 외우다가 원래 알고 있던 도시의 위치를 헷갈리게 되는 것과 유사한 원리이다.
본 논문은 이 문제를 해결하기 위해 모델이 새로운 것을 배우더라도 기존에 내놓던 정답 확률 분포에서 너무 멀어지지 않도록 붙잡아두는 '자기 증류' 장치를 도입했다. 이를 통해 모델은 새로운 지식을 위한 공간을 확보하면서도 기존 지식의 구조를 파괴하지 않고 유지할 수 있게 된다.
방법론
SFT 유도 할루시네이션을 완화하기 위해 두 가지 접근 방식을 사용했다. 첫째는 파라미터 동결(Parameter Freezing)로, FFN 레이어를 고정하고 Attention 레이어만 업데이트할 경우 새로운 사실 습득은 억제되지만 기존 지식 보존력은 극대화됨을 확인했다.
둘째는 Self-Distillation 기법이다. 학습 중인 학생 모델의 손실 함수에 교사 모델(학습 초기 단계의 모델)과의 KL Divergence를 추가했다. 구체적으로 L = L_task + λ * L_distill 구조를 가지며, 여기서 L_distill은 각 토큰 위치 j에서 교사 모델의 로짓 z_teacher와 학생 모델의 로짓 z_student 간의 KL Divergence를 계산한다. [두 모델의 확률 분포 차이를 입력으로 → KL Divergence 연산을 수행해 → 하나의 스칼라 값을 얻고 → 이 값이 작아지도록 학습하여 출력 분포의 급격한 변화를 막음]
실험에서는 SLiCK 방법론을 사용하여 모델이 확실히 아는 지식(HighlyKnown)과 모르는 지식(Unknown)을 분리하고, 새로운 지식을 배울 때 아는 지식의 정확도가 얼마나 떨어지는지 측정하는 통제된 실험 환경을 구축했다.
주요 결과
표준 SFT 환경에서 모델이 새로운 사실을 학습함에 따라 기존 지식(Held-out facts)에 대한 정확도는 약 15% 하락하는 양상을 보였다. 반면 Self-Distillation을 적용했을 때 이 하락폭은 약 3% 수준으로 억제되었으며, 새로운 지식 습득 속도는 표준 SFT와 유사한 수준을 유지했다.
의미론적 간섭 실험에서는 실제 지명과 유사한 이름을 가진 가짜 엔티티를 학습시킬 때 할루시네이션이 급증한 반면, 무작위 UUID 형태의 엔티티를 학습시킬 때는 할루시네이션이 거의 발생하지 않았다(0-4%). 이는 할루시네이션의 주원인이 모델의 용량 한계가 아니라 표현 공간의 중첩임을 시사한다.
Qwen 2.5(1.5B, 8B) 및 Llama 3.1(8B) 등 다양한 모델 아키텍처에서 동일한 경향성이 확인되었으며, 특히 모델이 모호하게 알고 있던 지식(MaybeKnown)에서 Self-Distillation의 보호 효과가 더욱 두드러지게 나타났다.
기술 상세
논문은 SFT 유도 할루시네이션의 원인을 세 가지 가설(용량 제한, 행동 복제, 국소적 간섭)로 검토했으며, 실험 결과 국소적 간섭(Localized Interference)이 지배적임을 밝혔다. 이를 증명하기 위해 레이어 14(Qwen 2.5-1.5B의 중간층)의 은닉 상태 드리프트(Hidden-state drift)를 분석했다.
Self-Distillation의 효과를 분석하기 위해 단순 L2 정규화와 비교했으나, L2 정규화는 가중치 이동만 제한할 뿐 출력 분포의 간섭을 직접 막지 못해 할루시네이션 억제 효과가 낮았다. 반면 Self-Distillation은 출력 공간에서의 제약을 통해 의미론적 중첩으로 인한 간섭을 효과적으로 차단했다.
또한 Top-k Distillation 실험을 통해 전체 어휘 사전이 아닌 상위 0.5%의 고확률 토큰에 대해서만 증류를 수행해도 전체 증류와 동일한 효과를 얻을 수 있음을 보였다. 이는 할루시네이션 억제에 있어 핵심적인 정보가 정답 후보군 간의 상대적 확률 관계(Dark Knowledge)에 있음을 의미한다.
한계점
본 연구는 주로 개체-관계 형태의 사실적 지식에 초점을 맞추어 실험을 진행했으므로, 복잡한 추론 능력이나 긴 문맥 이해 능력에서의 망각 현상에 대해서는 추가적인 검증이 필요할 수 있다.
실무 활용
LLM을 특정 도메인 데이터로 파인튜닝하거나 새로운 지식을 주입해야 하는 실무 환경에서 기존 모델의 성능 저하 없이 안전하게 업데이트할 수 있는 가이드를 제공한다.
- 도메인 특화 지식을 주입하기 위한 지속적인 파인튜닝 파이프라인 구축
- 모델의 말투나 형식을 조정하면서도 기존의 상식 추론 능력을 보존해야 하는 경우
- 개인정보 보호나 정렬(Alignment)을 위해 특정 파라미터만 선택적으로 학습시키는 전략 수립
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.