핵심 요약
기존 번역 시스템은 데이터가 부족한 소수 언어에서 성능이 급격히 떨어지는 '생성 병목' 현상을 겪어왔다. 이 논문은 특화된 데이터 전략과 모델 최적화를 통해 전 세계 1,600개 이상의 언어를 지원하며, 특히 소형 모델로도 대형 모델을 능가하는 효율성을 입증하여 언어 장벽 해소에 기여한다.
왜 중요한가
기존 번역 시스템은 데이터가 부족한 소수 언어에서 성능이 급격히 떨어지는 '생성 병목' 현상을 겪어왔다. 이 논문은 특화된 데이터 전략과 모델 최적화를 통해 전 세계 1,600개 이상의 언어를 지원하며, 특히 소형 모델로도 대형 모델을 능가하는 효율성을 입증하여 언어 장벽 해소에 기여한다.
핵심 기여
1,600개 이상의 언어를 지원하는 최초의 기계 번역 시스템 구축
기존 NLLB의 200개 언어 지원을 넘어 1,600개 이상의 언어에서 유의미한 번역 성능을 내는 Omnilingual Machine Translation(OMT) 시스템을 개발했다.
롱테일 언어 지원을 위한 대규모 다국어 데이터 전략 수립
수동 큐레이션된 MeDLEy 데이터셋, 대규모 합성 역번역, 병렬 말뭉치 마이닝을 통합하여 데이터가 희소한 언어의 학습 데이터를 획기적으로 확장했다.
최대 규모의 다국어 평가 벤치마크 BOUQuET 공개
275개 언어와 8개 도메인을 포함하는 새로운 다국어 평가 데이터셋과 참조 문장 없는 품질 측정 지표인 BLASER 3를 제시했다.
소형 모델의 대형 모델 능가 효율성 입증
1B에서 8B 파라미터 규모의 특화 모델이 70B 규모의 범용 LLM 베이스라인과 대등하거나 더 우수한 번역 성능을 기록함을 확인했다.
핵심 아이디어 이해하기
Transformer 기반의 기존 모델들은 데이터가 풍부한 언어에서는 뛰어난 성능을 보이지만, 데이터가 적은 '롱테일' 언어에서는 문장을 생성하는 능력이 현저히 떨어진다. 이는 모델이 언어 간 전이 학습을 통해 소수 언어를 이해할 수는 있어도, 해당 언어로 자연스러운 문장을 구성하는 훈련이 부족하기 때문에 발생하는 현상이다.
본 논문은 이 문제를 해결하기 위해 LLaMA 3를 기반으로 모델을 전문화한다. 단순히 모델 크기를 키우는 대신, 소수 언어의 문법적 특징을 보존하는 MeDLEy 데이터셋을 구축하고 대규모 역번역을 통해 모델이 소수 언어의 구조를 직접 생성해볼 기회를 늘렸다. 또한 256K 토큰으로 확장된 어휘집을 통해 비라틴 문자권 언어의 처리 효율을 높였다.
결과적으로 모델은 소수 언어의 고유한 문법과 표현을 더 정확하게 학습하게 된다. 이는 범용적인 거대 모델보다 특정 태스크에 최적화된 중소형 모델이 훨씬 더 효율적이고 강력한 성능을 낼 수 있음을 보여준다.
방법론
전체 접근 방식은 데이터 확장과 모델 전문화라는 두 축으로 구성된다. Common Crawl에서 추출한 2,000개 이상의 언어 데이터를 정제하고, 1,600개 언어의 성경 데이터 및 Panlex 사전을 통합하여 기초 학습 데이터를 확보했다.
OMT-LLaMA는 Decoder-only 구조로, LLaMA 3를 기반으로 다국어 지속 사전 학습(Continual Pre-training)을 수행한다. 단일 언어 문서의 언어 모델링과 병렬 문서의 번역 작업을 동시에 학습하여 언어 간 전이 효율을 극대화했다. 특히 추론 시점에 검색 증강 번역(RAG)을 도입하여 데이터가 부족한 언어의 적응력을 높였다.
OMT-NLLB는 Encoder-Decoder 구조로, OmniSONAR라는 정렬된 임베딩 공간을 활용한다. 1단계에서 단일 언어 데이터를 활용한 자기부호화(Auto-encoding)로 디코더를 강화하고, 2단계에서 토큰 수준 교차 주의 집중을 위한 디코더 웜업을 거쳐, 3단계에서 전체 시스템을 종단간 미세 조정하는 전략을 사용한다.
데이터 필터링 시 OmniSONAR 공간에서의 코사인 유사도를 활용한다. 소스 문장 벡터 A와 타겟 문장 벡터 B가 주어질 때 (A·B) / (||A||||B||)를 계산하여 0~1 사이의 값을 얻는다. 이 값이 1에 가까울수록 두 문장의 의미가 일치함을 의미하며, 특정 임계값 이상의 고품질 합성 데이터만 학습에 포함시켜 노이즈를 최소화했다.
주요 결과
1B~8B 규모의 OMT 모델들이 70B 파라미터의 LLaMA 3 베이스라인 모델의 번역 성능을 일관되게 능가했다. 특히 BOUQuET 벤치마크에서 OMT-LLaMA 8B 모델은 영어로 번역하는 성능(XX-En)에서 기존 시스템 대비 압도적인 점수를 기록했다.
성경 벤치마크(1,560개 언어) 평가 결과, 기존 베이스라인 모델들은 약 300~400개 언어 이후 성능이 급격히 하락하여 무작위 수준이 되는 반면, OMT 모델들은 약 1,200개 언어까지 유의미한 번역 품질을 유지하는 강력한 확장성을 보였다.
Ablation Study를 통해 확장된 256K 토크나이저가 ChrF++ 점수를 최대 26% 개선함을 확인했다. 또한 검색 증강 번역(RAG)을 적용했을 때, 30K 이상의 예시가 확보된 언어 쌍에서 ChrF++ 점수가 평균 2.30점 향상되는 등 실무적 효용성을 입증했다.
실무 활용
전 세계 소외된 언어 사용자들을 위한 실시간 번역 서비스 구축에 즉시 활용 가능하다. 저사양 하드웨어에서도 구동 가능한 소형 모델로 고성능을 내므로 온디바이스 번역 및 소수 언어 보존 프로젝트에 적합하다.
- 소수 언어 보존 및 교육을 위한 자동 번역 시스템 구축
- 저사양 모바일 기기용 다국어 커뮤니케이션 앱 개발
- 특정 도메인 지식 기반의 검색 증강 번역(RAG) 서비스 제공
- 다국어 독성 탐지 및 콘텐츠 필터링 도구 활용
기술 상세
OMT-LLaMA는 LLaMA 3 8B를 백본으로 하며, 128K에서 256K로 확장된 BPE 토크나이저를 사용한다. 이는 특히 비라틴 문자권 언어에서 토큰 분절 효율을 개선하여 학습 및 추론 처리량을 높이는 핵심 요소이다.
OMT-NLLB의 3단계 학습 전략은 인코더-디코더 구조의 병목 현상을 해결한다. 기존 OmniSONAR가 문장 수준의 풀링된 벡터 하나에 의존하던 것과 달리, 토큰 수준의 교차 주의 집중을 도입하여 인코더의 세밀한 정보를 디코더에 전달할 수 있도록 아키텍처를 개선했다.
데이터 전략 면에서 MeDLEy 데이터셋은 61개의 기능적 문법 특징을 포함하도록 설계되었다. 이는 모델이 단순한 단어 매칭을 넘어 격 표시(Case marking), 시제(Tense), 양상(Aspect) 등 복잡한 언어적 구조를 학습하도록 유도한다.
품질 평가를 위해 제안된 BLASER 3는 OmniSONAR 임베딩을 기반으로 한 다국어 품질 추정 모델이다. 6개의 평가 프로토콜과 204개의 고유한 언어 방향을 포함하는 1.6M개의 예시로 학습되어, 참조 문장 없이도 인간의 판단과 높은 상관관계를 보이는 성능을 기록했다.
한계점
자동 평가 지표가 롱테일 언어의 문법성이나 자연스러움을 완벽하게 포착하지 못할 수 있다. 또한 독성 탐지 모델인 OmniTOX의 경우, 학습 데이터의 약 40%가 영어와 스페인어에 집중되어 있어 서구권 규범에 편향될 가능성이 존재한다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료