수요에 따른 언어, 핵심 지식: 확장 가능한 다국어 능력을 위해 인코더-디코더 번역 모델과 LLM 결합하기

왜 중요한가

대형 언어 모델(LLM)은 뛰어난 지능을 가졌지만, 학습 데이터가 부족한 소수 언어에서는 성능이 급격히 떨어지는 고질적인 문제를 안고 있다. 이 논문은 이미 수백 개의 언어를 잘 이해하는 번역 모델을 LLM의 '입'과 '귀'로 활용하여, 모델 전체를 다시 학습시키지 않고도 전 세계 다양한 언어를 자유자재로 다룰 수 있게 만드는 획기적인 구조를 통해 이 문제를 해결한다.

핵심 기여

XBridge 아키텍처 설계

외부 번역 모델의 인코더와 디코더를 LLM과 결합하여 다국어 이해와 생성을 분담하는 새로운 구성적 구조를 설계했다.

최적 운송(Optimal Transport) 기반 정렬 기법 적용

서로 다른 토크나이저를 사용하는 모델 간의 의미적 불일치를 해결하기 위해 토큰 수준의 세밀한 정렬 기법을 도입했다.

3단계 점진적 학습 전략 수립

모델 간 매핑, 인코더 적응, 디코더 적응으로 이어지는 체계적인 학습 과정을 통해 동결된 LLM의 지식을 다국어로 안정적으로 전이했다.

범용성 및 확장성 검증

학습에 포함되지 않은 42개의 미학습 언어에서도 성능 향상을 확인했으며, 다양한 LLM 및 번역 모델 조합에 적용 가능함을 입증했다.

핵심 아이디어 이해하기

LLM은 내부적으로 다양한 언어의 지식을 통합된 의미 공간(Embedding space)에 저장하고 있지만, 이를 특정 언어의 텍스트로 변환하거나 이해하는 인터페이스 능력이 언어별로 불균형하다. 특히 데이터가 적은 저자원 언어의 경우, 모델이 지식은 알고 있어도 해당 언어의 토큰과 의미를 연결하지 못해 답변을 거부하거나 엉뚱한 언어로 대답하는 한계가 존재한다. XBridge는 이 문제를 해결하기 위해 이미 수백 개의 언어를 학습한 NLLB와 같은 번역 모델을 활용한다. 번역 모델의 인코더가 다양한 언어의 입력을 LLM이 이해할 수 있는 영어 중심의 의미 공간으로 변환해주고, LLM이 추론한 결과물을 다시 번역 모델의 디코더가 대상 언어로 출력하는 방식이다. 이때 서로 다른 모델 간의 표현 방식 차이를 메우기 위해 가벼운 매핑 레이어를 사용한다. 특히 주목할 점은 '최적 운송(Optimal Transport)' 개념을 도입해 토큰 단위의 정렬을 맞춘 것이다. LLM이 생성한 영어 문장과 번역 모델이 처리해야 할 다국어 문장은 토큰의 길이나 순서가 다르지만, OT 알고리즘을 통해 의미적으로 가장 가까운 부분끼리 연결함으로써 정보 손실 없는 정확한 다국어 생성을 가능하게 했다.

방법론

XBridge는 Encoder-LLM-Decoder 구조를 채택한다. 다국어 쿼리 x가 입력되면 NMT 인코더가 문맥 표현 Hx를 생성하고, Mapping_enc 레이어가 이를 LLM의 표현 공간으로 투영한다. LLM은 이 정보를 바탕으로 영어 지식 처리를 수행하며, 동결된 상태를 유지하여 기존의 강력한 추론 능력을 보존한다. LLM의 출력층 직전 은닉 상태 Hz'를 추출하여 Mapping_dec를 통해 NMT 디코더의 공간으로 보낸다. 디코더는 이 값을 Cross-Attention의 Key-Value로 활용하여 대상 언어 y를 생성한다. 이때 [두 시퀀스의 토큰 표현 Hz, Hz'를 입력으로] → [코사인 거리를 비용으로 하여 한 시퀀스의 질량을 다른 시퀀스로 옮기는 최소 비용 Tij를 계산] → [최종적인 OT 거리 값을 얻음] → [이 값은 두 모델 간의 토큰 수준 의미적 유사도를 나타내며 이를 최소화하여 정렬을 유도함]의 과정을 거친다. 학습은 3단계로 진행된다. 1단계(Cross-Model Mapping)에서는 삼개 국어 번역 데이터를 사용해 인코더-LLM-디코더 간의 거친 정렬을 맞춘다. 2단계(Encoder-Side Adaptation)에서는 인코더 매핑 레이어만 미세 조정하여 LLM이 다국어 입력을 더 잘 이해하게 한다. 3단계(Decoder-Side Adaptation)에서는 디코더 매핑과 Cross-Attention 레이어를 최적화하여 다국어 생성 품질을 극대화한다.

주요 결과

FLORES-101 번역 벤치마크에서 XBridge는 MetaMath, Llama 3, Qwen 2.5 등 다양한 베이스 모델에서 기존 SFT 및 MindMerger 등의 베이스라인을 압도했다. 특히 저자원 언어(Bengali, Swahili 등)에서 성능 향상이 두드러졌으며, NLLB-200-1.3B 모델의 성능에 근접하는 결과를 기록했다. 다국어 추론(MGSM) 및 요약(XL-Sum) 실험에서도 XBridge는 베이스 모델 대비 높은 정확도와 Rouge-L 점수를 기록했다. 특히 학습에 사용되지 않은 42개의 언어에 대해서도 성능이 전이되는 Zero-shot 능력을 입증하며, 제안된 매핑 방식이 특정 언어에 종속되지 않는 범용적인 의미 전이를 학습했음을 확인했다. Ablation Study 결과, 최적 운송(OT) 정렬을 제거했을 때 생성 품질이 크게 하락하는 것으로 나타나 토큰 수준의 세밀한 정렬이 필수적임을 확인했다. 또한 디코더를 사용하지 않고 인코더만 결합했을 때보다 Encoder-Decoder를 모두 사용했을 때 다국어 추론 성능이 더 안정적임이 증명됐다.

실무 활용

기존 영어 중심 LLM을 재학습 없이도 수백 개의 언어를 지원하는 다국어 모델로 빠르게 확장할 수 있는 실용적인 프레임워크다. 추가되는 파라미터가 매우 적고 학습 비용이 저렴하여 자원이 한정된 환경에서도 효율적인 다국어 서비스 구축이 가능하다.

저자원 언어(소수 언어) 사용자를 위한 다국어 챗봇 및 고객 응대 시스템 구축
기존 영어 전용 특화 모델(수학, 코딩 등)에 다국어 인터페이스 추가
실시간 다국어 문서 요약 및 번역 서비스의 정확도 향상
학습 데이터가 부족한 특정 도메인의 다국어 지식 베이스 구축

기술 상세

XBridge의 핵심은 이종 모델 간의 표현 공간 정렬(Representation Alignment)이다. LLM은 동결(Frozen)된 상태로 지식 코어 역할을 하며, 외부 NMT 모델의 인코더와 디코더가 언어적 인터페이스를 담당한다. 인코더 측 매핑은 2층 MLP로, 디코더 측 매핑은 4층 MLP 구조로 구현되어 파라미터 효율성을 확보했다. 최적 운송(Optimal Transport) 기반 정렬은 코사인 거리를 비용 함수로 사용하며, 각 토큰의 L1 노름을 확률 질량으로 정규화하여 중요도를 반영한다. 이는 토크나이저가 다른 두 시퀀스 간의 부드러운 매칭(Soft matching)을 가능하게 하여, LLM의 은닉 상태가 NMT 디코더의 의미 기하학적 구조와 호환되도록 강제한다. 구현 측면에서 LLM의 마지막 층이 아닌 끝에서 두 번째 층(Penultimate layer)의 은닉 상태를 사용한다. 이는 마지막 층이 출력 어휘 공간에 너무 강하게 정렬되어 있어 의미적 정보가 손실될 수 있다는 선행 연구 결과를 반영한 설계다. 학습 시에는 AdamW 옵티마이저와 2e-5의 학습률을 사용하며, 각 단계별로 손실 함수의 가중치를 조절하여 안정적인 수렴을 유도했다.

한계점

XBridge가 다국어 불균형을 크게 완화하지만, 여전히 언어 간 성능 차이가 일부 존재한다. 이는 외부 NMT 모델과 베이스 LLM의 결합 과정에서 발생하는 본질적인 한계로, 두 컴포넌트를 더욱 완벽하게 조화시키기 위한 추가적인 연구가 필요하다.

키워드

LLM(대형 언어 모델)NMT(신경망 기계 번역)XBridge(엑스브릿지)Optimal Transport(최적 운송)Multilinguality(다국어 능력)Low-resource Languages(저자원 언어)