설명 가능한 인용 기반 대화를 위한 점진적 학습: 영어-힌디어 LLM의 환각 현상을 0으로 줄이기

LLM이 생성하는 정보의 출처를 명확히 하고 환각을 제거하는 것은 AI의 신뢰성을 결정짓는 핵심 과제임. 특히 힌디어와 같은 저자원 언어에서도 영어 수준의 정확한 인용과 사실 관계 유지가 가능함을 입증하여 다국어 AI 서비스의 안전성을 높이는 데 기여함.

왜 중요한가

핵심 기여

XKD-Dial 점진적 학습 파이프라인

다국어 적응, 영어 인용 SFT, 이중 언어 SFT, GRPO 정렬로 이어지는 4단계 학습 체계를 통해 기술적 역량을 단계적으로 축적하고 파괴적 망각을 방지함.

Encoder-Decoder 모델의 환각률 0% 기록

인용 기반 SFT를 적용한 결과, Flan-T5와 같은 Encoder-Decoder 아키텍처 모델에서 자동 평가 기준 환각률 0.0%를 달성함.

다각도 설명 가능성 분석 프레임워크

Cross-attention, Integrated Gradients, Occlusion 분석을 통해 모델이 단순히 인용 형식을 흉내 내는 것이 아니라 실제로 지식 소스를 참조하여 답변을 생성함을 검증함.

핵심 아이디어 이해하기

Transformer의 Attention 메커니즘은 입력된 모든 정보 사이의 관계를 계산하지만, 생성 과정에서 특정 지식 소스에 엄격하게 고정되지 않아 훈련 데이터의 통계적 확률에 의존하는 환각이 발생함. 이를 해결하기 위해 답변 내에 [1], [2]와 같은 명시적인 인용 마커를 삽입하도록 강제하면, 모델의 내부 연산이 해당 번호의 지식 단락으로 유도되는 효과가 발생함.

단순히 인용 형식을 가르치는 것을 넘어, XKD-Dial은 '기술의 전이' 원리를 활용함. 먼저 영어 데이터로 인용의 구조적 기술을 완벽히 학습시킨 뒤, 이를 힌디어 대화 데이터와 결합하여 학습시킴으로써 언어 간 장벽을 넘어 인용 능력이 전이되도록 설계함.

마지막으로 GRPO와 같은 강화학습 정렬을 통해 인용의 정확도와 사실 일관성에 보상을 부여함으로써, 모델이 모호한 추측 대신 확실한 근거에 기반한 답변만을 생성하도록 최적화함. 이 과정은 모델이 '무엇을 아는지'뿐만 아니라 '어디서 가져왔는지'를 명확히 인지하게 함.

방법론

XKD-Dial은 총 4단계의 점진적 학습 과정을 거침. Stage 1은 Multilingual Adaptation 단계로, 영어-힌디어 번역 학습을 통해 모델의 이중 언어 표현력을 강화함. Stage 2는 English Dialogue SFT 단계로, 명시적인 인용 마커가 포함된 영어 지식 기반 대화 데이터를 학습시켜 인용 메커니즘을 내재화함.

Stage 3는 Bilingual Dialogue SFT 단계로, 영어와 힌디어 데이터를 4:6 비율로 혼합하여 Stage 2에서 배운 인용 능력을 힌디어로 전이함. 이때 [영어 데이터 → 손실 함수 계산 → 가중치 업데이트] 과정을 복습 버퍼로 활용하여 영어 성능 저하를 방지함.

Stage 4는 GRPO Alignment 단계로, 비판자 모델 없이 그룹 내 상대적 보상을 계산함. [G개의 후보 답변 생성 → 사실 일관성(NLI), 인용 정확도, 환각 페널티 등 복합 보상 함수 적용 → Advantage 계산 → 정책 업데이트] 순으로 진행하여 모델의 출력 품질을 최종 정렬함.

주요 결과

Flan-T5 (Base, Large, XL) 모델군은 Stage 2 이후 모든 실험에서 환각률 0.0%를 기록하며 압도적인 사실성을 보임. 특히 250M 파라미터의 소형 모델인 Flan-T5-Base가 780M 모델과 대등한 영어 성능(BLEU 0.172, Citation F1 0.980)을 기록하며, 구조화된 작업에서 모델 크기보다 정교한 SFT의 영향력이 큼을 입증함.

힌디어 성능의 경우 Stage 3에서 비약적인 향상이 나타남. Flan-T5-Base 기준 힌디어 ROUGE-1 점수가 0.481에서 0.691로 상승하며 다국어 SFT의 효과를 증명함. Decoder-only 모델 중에서는 Gemma-2-2B가 힌디어 성능에서 가장 우수한 결과(ROUGE-1 0.719, Citation F1 0.812)를 보임.

GRPO 정렬은 잘 설계된 SFT 대비 미미한 성능 향상을 보였으나, Mistral-7B와 같은 대형 모델에서 인용 정확도와 FactScore를 소폭 개선하는 효과를 거둠. 반면 LLaMA-3.2-1B는 특정 단계에서 영어 인용 능력을 상실하는 '언어 선택적 인용 실패' 현상이 관찰되어 모델별 특성에 따른 학습 전략의 필요성을 시사함.

실무 활용

신뢰성이 필수적인 다국어 고객 상담, 전문 지식 검색, 공공 서비스용 챗봇 구축에 즉시 활용 가능한 학습 방법론임. 특히 저사양 하드웨어에서도 구동 가능한 소형 모델로도 높은 정확도의 인용 시스템을 구현할 수 있음.

영어와 힌디어를 동시에 지원하는 금융/의료 분야의 사실 기반 상담 에이전트
외부 문서를 참조하여 답변의 근거(출처)를 반드시 제시해야 하는 기업용 지식 관리 시스템
환각 현상에 민감한 교육용 AI 튜터 및 다국어 학습 보조 도구

기술 상세

본 연구는 Encoder-Decoder(Flan-T5)와 Decoder-only(LLaMA, Gemma, Mistral) 아키텍처 간의 인용 학습 특성 차이를 심도 있게 분석함. Encoder-Decoder 모델은 Cross-attention 서브레이어를 통해 입력 지식 단락에 직접적으로 Attention을 할당하는 구조적 이점이 있어 인용 기반 환각 제거에 더 효율적임이 확인됨.

설명 가능성 분석에서 Integrated Gradients를 적용한 결과, 모델이 인용 마커 [N]을 생성하는 시점에 해당 번호의 지식 소스 토큰들에 대한 기여도가 급격히 상승함이 관찰됨. 이는 모델이 단순히 텍스트 패턴을 복제하는 것이 아니라, 논리적으로 소스 정보를 참조하고 있음을 수학적으로 뒷받침함.

학습 효율성 측면에서 Mistral-7B는 모든 단계에서 가장 낮은 검증 손실(Validation Loss)을 기록하며 높은 수용력을 보여주었으나, 소형 모델인 Flan-T5-Base도 특정 작업에서는 대형 모델에 필적하는 성능 수렴을 보임. 이는 특정 도메인 특화 작업에서 모델 경량화의 가능성을 제시함.

한계점

힌디어 데이터셋의 상당 부분이 기계 번역에 의존하고 있어 자연스러운 구어체 표현을 완벽히 반영하지 못했을 가능성이 있음. 또한 GRPO 학습 시 하이퍼파라미터 탐색이 제한적이었으며, 자동 평가 지표 외에 실제 사용자의 신뢰도를 측정하는 대규모 인간 평가가 보완되어야 함.

키워드

Knowledge-Grounded Dialogue(지식 기반 대화)Hallucination Reduction(환각 감소)Multilingual NLP(다국어 자연어 처리)Explainability(설명 가능성)GRPO(그룹 상대 정책 최적화)Citation Generation(인용 생성)

설명 가능한 인용 기반 대화를 위한 점진적 학습: 영어-힌디어 LLM의 환각 현상을 0으로 줄이기

왜 중요한가

핵심 기여

XKD-Dial 점진적 학습 파이프라인

다국어 적응, 영어 인용 SFT, 이중 언어 SFT, GRPO 정렬로 이어지는 4단계 학습 체계를 통해 기술적 역량을 단계적으로 축적하고 파괴적 망각을 방지함.

Encoder-Decoder 모델의 환각률 0% 기록

인용 기반 SFT를 적용한 결과, Flan-T5와 같은 Encoder-Decoder 아키텍처 모델에서 자동 평가 기준 환각률 0.0%를 달성함.

다각도 설명 가능성 분석 프레임워크

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

영어와 힌디어를 동시에 지원하는 금융/의료 분야의 사실 기반 상담 에이전트
외부 문서를 참조하여 답변의 근거(출처)를 반드시 제시해야 하는 기업용 지식 관리 시스템
환각 현상에 민감한 교육용 AI 튜터 및 다국어 학습 보조 도구

설명 가능한 인용 기반 대화를 위한 점진적 학습: 영어-힌디어 LLM의 환각 현상을 0으로 줄이기

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

설명 가능한 인용 기반 대화를 위한 점진적 학습: 영어-힌디어 LLM의 환각 현상을 0으로 줄이기

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드