핵심 요약
다국어 임베딩 모델이 여러 언어가 섞인 문서 집합에서 쿼리와 같은 언어의 관련 문서보다 무관한 영어 문서를 우선순위에 두는 '영어 편향' 문제를 해결한다. 단 2,800개의 샘플만으로도 모델의 교차 언어 정렬 능력을 획기적으로 개선하여 다국어 검색 시스템의 신뢰성을 높인다.
왜 중요한가
다국어 임베딩 모델이 여러 언어가 섞인 문서 집합에서 쿼리와 같은 언어의 관련 문서보다 무관한 영어 문서를 우선순위에 두는 '영어 편향' 문제를 해결한다. 단 2,800개의 샘플만으로도 모델의 교차 언어 정렬 능력을 획기적으로 개선하여 다국어 검색 시스템의 신뢰성을 높인다.
핵심 기여
다국어 검색 모델의 언어 편향 및 정렬 오류 분석
영어와 타 언어 문서가 공존하는 환경에서 다국어 리트리버가 무관한 영어 문서를 선호하는 현상을 발견하고, 이를 정량화하기 위한 새로운 평가 시나리오와 Max@R 지표를 도입했다.
JSD와 InfoNCE를 결합한 새로운 학습 전략 제안
언어 간 임베딩 분포를 정렬하는 Jensen-Shannon Divergence(JSD) 손실 함수와 검색 성능을 직접 높이는 InfoNCE 손실 함수를 결합하여 언어 간 의미론적 거리를 좁히는 학습 방식을 개발했다.
소규모 데이터셋을 활용한 효율적인 성능 개선
MIRACL 데이터셋의 2.8k 샘플만 사용하여 추가 학습을 진행했음에도 불구하고, 대규모 모델들의 교차 언어 정렬 능력을 유의미하게 향상시키고 영어 편향 문제를 완화했다.
핵심 아이디어 이해하기
기존의 다국어 임베딩 모델은 각 언어의 문장을 벡터 공간에 매핑할 때, 의미가 같더라도 언어별로 뭉쳐서 분포하는 경향이 있다. 이는 검색 시 쿼리와 의미적으로 가장 가까운 문서를 찾는 대신, 모델이 학습 과정에서 더 많이 접한 특정 언어(주로 영어)의 벡터 영역으로 쿼리를 끌어당기는 결과를 초래한다. 결과적으로 사용자가 모국어로 질문해도 엉뚱한 영어 문서가 상위에 노출되는 문제가 발생한다.
이 논문은 임베딩 벡터를 단순한 점이 아니라 하나의 확률 분포로 해석한다. 두 언어의 의미가 같다면 그 벡터들이 형성하는 분포의 모양도 같아야 한다는 점에 착안하여, 두 확률 분포 사이의 거리를 측정하는 Jensen-Shannon Divergence(JSD)를 손실 함수로 사용한다. 이를 통해 서로 다른 언어의 임베딩 공간을 강제로 겹치게 만들어 언어에 상관없이 의미가 같으면 같은 위치에 놓이도록 정렬한다.
이러한 정렬 과정은 검색 모델이 언어라는 껍데기에 현혹되지 않고 순수한 의미(Semantics)에 집중하게 만든다. 실험 결과, 모델은 더 이상 영어를 편애하지 않게 되었으며, 쿼리 언어에 상관없이 가장 관련성 높은 문서를 정확하게 찾아내는 능력이 향상되었다.
관련 Figure

기존 InfoNCE 방식은 영어와 타 언어 문서의 임베딩 분포가 차원별로 크게 어긋나 있지만, 제안된 방식은 두 분포가 거의 일치하도록 정렬됨을 보여준다. 이는 JSD 손실 함수가 언어 간의 의미론적 거리를 효과적으로 좁히고 있음을 시각적으로 증명한다.
InfoNCE와 제안된 방법(Ours)의 임베딩 차원별 분포 정렬 상태를 비교한 다이어그램이다.
방법론
전체적인 접근 방식은 기존 다국어 임베딩 모델을 소규모의 병렬 데이터셋(English-Target Language)을 사용하여 파인튜닝하는 것이다. 이때 핵심은 두 가지 손실 함수를 결합한 통합 손실 함수 L = LJSD + LNCE를 최소화하는 방향으로 학습을 진행하는 점이다.
첫 번째 핵심 메커니즘인 LJSD는 임베딩 분포 정렬을 담당한다. 영어 문서 임베딩 z_en과 타 언어 문서 임베딩 z_tgt를 각각 Softmax 함수를 통해 확률 분포 P(z)로 변환한다. Softmax는 각 차원의 값 z_i에 대해 e^z_i / Σe^z_k를 계산하여 모든 차원의 합이 1이 되도록 만든다. 이후 두 분포 사이의 Jensen-Shannon Divergence를 계산하여 그 제곱근 값을 최소화함으로써, 서로 다른 언어의 임베딩이 차원별로 유사한 확률 구조를 갖도록 강제한다.
두 번째 메커니즘인 LNCE는 쿼리와 문서 간의 검색 성능을 직접 최적화한다. 영어 쿼리 q_en과 타 언어 문서 p_tgt 쌍을 양성 샘플로, 배치 내의 다른 쿼리들을 음성 샘플로 설정하여 Contrastive Learning을 수행한다. 코사인 유사도 s(p, q)를 계산하고, 양성 샘플의 유사도 지수 값을 전체 샘플의 유사도 지수 합으로 나누어 로그를 취한 뒤 평균을 낸다. 이 과정을 통해 관련 있는 문서와 쿼리 사이의 거리는 좁히고 무관한 샘플과의 거리는 멀어지게 한다.
주요 결과
XQuAD 및 Belebele 벤치마크에서 4가지 주요 다국어 모델(multilingual-e5, gte-multilingual, jina-embeddings-v3, bge-m3)을 대상으로 실험을 진행했다. 제안된 방법론을 적용한 결과, 모든 모델에서 Max@R(모든 관련 문서를 찾기 위해 확인해야 하는 최대 순위) 수치가 획기적으로 낮아졌다. 예를 들어 multilingual-e5 모델의 중국어 쿼리 Max@R은 650.95에서 23.10으로 급감하여 검색 효율성이 대폭 개선되었다.
Ablation Study를 통해 LJSD와 LNCE의 상호 보완적 역할을 확인했다. LJSD가 없으면 언어 간 정렬이 무너져 검색 성능이 저하되었고, LNCE가 없으면 임베딩은 정렬되지만 실제 검색 정확도가 낮아졌다. 또한, 제안된 방식은 다국어 환경뿐만 아니라 단일 언어 검색(Mono-Same) 환경에서도 성능을 유지하거나 오히려 소폭 향상시키는 견고함을 보였다.
관련 Figure

기존 베이스라인 모델(연한 색)에 비해 제안된 방법(진한 색)을 적용했을 때 모든 언어에서 검색 정확도가 상승했음을 보여준다. 특히 타 언어 쿼리(Target)의 성능이 영어 쿼리 수준으로 근접하며 언어 간 편차가 줄어든 것을 확인할 수 있다.
XQuAD와 Belebele 데이터셋에서 gte-multilingual-base 모델의 언어별 검색 성능 향상을 보여주는 막대 그래프이다.
기술 상세
본 연구는 기존 CLIR 평가가 단일 언어 문서 풀만을 가정하여 모델의 실제 정렬 능력을 과대평가하고 있음을 지적한다. 이를 해결하기 위해 영어와 타 언어의 병렬 문서가 섞여 있는 'Multi scenario'를 정의하고, 모든 정답 문서를 찾기 위한 최악의 순위를 측정하는 Max@R 지표를 제안했다.
학습 시에는 GPT-4o를 이용해 번역된 2.8k개의 소규모 MIRACL 데이터셋을 활용했다. LJSD 계산 시 수치적 안정성을 위해 작은 값 ϵ을 더해준 뒤 제곱근을 취하는 방식을 사용했으며, 이는 Jensen-Shannon distance가 거리 공간의 공리(Identity, Symmetry, Triangle inequality)를 만족하게 하여 최적화 효율을 높인다.
아키텍처 측면에서는 기존 모델의 가중치를 유지하면서 추가적인 정렬 레이어 없이 손실 함수만으로 임베딩 공간을 재구성한다. 이는 모델의 파라미터 효율성을 유지하면서도 강력한 정렬 효과를 얻을 수 있는 전략이다. 실험에 사용된 모델들은 각각의 특성에 맞춰 1e-5에서 4e-6 사이의 학습률로 1 epoch만 학습되었음에도 불구하고 뚜렷한 성능 향상을 보였다.
한계점
실험이 주로 영어를 중심으로 한 언어 쌍에 집중되어 있어, 영어가 포함되지 않은 언어 간(예: 한국어-프랑스어)의 정렬 성능은 충분히 검증되지 않았다. 또한, 학습 데이터 생성에 기계 번역(GPT-4o)을 사용했기 때문에 인간의 번역이 가진 미묘한 문화적 맥락이나 뉘앙스를 완벽하게 포착하지 못했을 가능성이 있다.
실무 활용
다국어 문서를 다루는 기업용 검색 엔진이나 RAG(검색 증강 생성) 시스템에서 특정 언어에 대한 편향을 제거하고 검색 품질을 균일하게 높이는 데 즉시 적용 가능하다.
- 글로벌 기업의 다국어 지식 베이스 구축 시 언어 장벽 없는 정보 검색
- 한국어 쿼리로 영어 전문 자료를 정확하게 찾아내야 하는 교차 언어 RAG 시스템
- 다양한 언어의 뉴스가 혼재된 데이터베이스에서 언어 편향 없는 주제별 문서 분류 및 검색
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.