핵심 요약
전 세계 인구의 70%가 두 개 이상의 언어를 섞어 쓰는 '코드 스위칭' 환경에 살고 있음에도 불구하고, 현재의 AI 검색 시스템은 단일 언어 처리에만 최적화되어 있습니다. 이 논문은 최신 다국어 모델조차 혼합 언어 쿼리에서 심각한 성능 저하를 겪는다는 사실을 입증하며, 향후 RAG 및 검색 시스템이 해결해야 할 새로운 기술적 경계를 제시합니다.
왜 중요한가
전 세계 인구의 70%가 두 개 이상의 언어를 섞어 쓰는 '코드 스위칭' 환경에 살고 있음에도 불구하고, 현재의 AI 검색 시스템은 단일 언어 처리에만 최적화되어 있습니다. 이 논문은 최신 다국어 모델조차 혼합 언어 쿼리에서 심각한 성능 저하를 겪는다는 사실을 입증하며, 향후 RAG 및 검색 시스템이 해결해야 할 새로운 기술적 경계를 제시합니다.
핵심 기여
CSR-L 벤치마크 구축
실제 사용자의 자연스러운 혼합 언어 검색 행태를 반영하기 위해 인간이 직접 주석을 단 최초의 코드 스위칭 검색 벤치마크인 CSR-L(Code-Switching Retrieval benchmark-Lite)을 구축함.
CS-MTEB 확장 평가
검색을 넘어 분류, 클러스터링, 문장 유사도 등 11가지 다양한 텍스트 임베딩 작업으로 평가 범위를 확장한 CS-MTEB를 제안하여 코드 스위칭의 범용적 취약성을 확인함.
임베딩 공간의 기하학적 편향 분석
단일 언어 쿼리와 코드 스위칭 쿼리가 임베딩 공간에서 서로 다른 클러스터로 분리되는 현상을 시각화하여 검색 실패의 근본적인 원인이 표현 공간의 불일치에 있음을 증명함.
어휘 확장 기법의 한계 규명
이중 언어 사전을 활용한 어휘 확장(Vocabulary Expansion)이 일부 성능 개선을 가져오지만, 단일 언어 수준의 성능을 회복하기에는 부족하다는 점을 밝혀내어 단순한 어휘 문제를 넘선 의미론적 정렬의 필요성을 강조함.
핵심 아이디어 이해하기
딥러닝 기반 검색 모델은 텍스트를 고차원 벡터 공간의 점(Embedding)으로 변환하여 의미적 유사도를 계산한다. 기존 다국어 모델은 각 언어를 독립적으로 학습하거나 병렬 코퍼스를 통해 정렬하지만, 두 언어가 한 문장 내에서 결합되는 '코드 스위칭' 데이터는 학습 과정에서 충분히 다뤄지지 않는다. 이로 인해 모델은 혼합 언어 문장을 만났을 때 기존에 학습한 단일 언어의 의미 공간에서 벗어난 엉뚱한 위치로 벡터를 매핑하게 된다.
이 논문은 이러한 현상을 '임베딩 공간의 이동'으로 정의한다. 예를 들어 영어와 중국어가 섞인 쿼리는 영어 전용 공간이나 중국어 전용 공간 어디에도 속하지 못하고 고립된 영역에 배치된다. 결과적으로 모델은 질문의 의도를 정확히 파악하더라도, 데이터베이스 내에 존재하는 단일 언어 문서들과의 거리 계산에서 실패하게 된다.
결국 코드 스위칭 검색의 실패는 단순한 단어의 부재가 아니라, 모델이 혼합된 언어 구조를 처리할 때 발생하는 의미론적 왜곡 때문이다. 이는 모델의 크기를 키우거나 단순한 다국어 학습만으로는 해결되지 않는 구조적인 문제임을 시사한다.
관련 Figure

영어 중심 모델(e5)은 코드 스위칭 시 임베딩이 완전히 분리되는 반면, 다국어 모델(Qwen3)은 상대적으로 겹침이 발생하여 더 견고함을 시각적으로 증명한다.
e5-large-v2와 Qwen3-Embedding-0.6B 모델의 단일 언어 및 코드 스위칭 쿼리 임베딩 공간 시각화.
방법론
연구진은 코드 스위칭 검색 능력을 평가하기 위해 세 단계의 프레임워크를 설계했다. 첫째, CSR-L 벤치마크를 위해 Touché 2020, HumanEval 등 기존 데이터셋의 쿼리를 원어민이 직접 영어-중국어 및 영어-일본어 혼합 형태로 재작성했다. 둘째, CS-MTEB 구축을 위해 LLM(MiMo-v2-Flash)을 활용하여 9개 언어 쌍에 대해 11가지 임베딩 작업을 생성하고 품질 검증을 거쳤다.
어휘 확장(Vocabulary Expansion) 실험에서는 이중 언어 사전 D = {(wt, ws)}를 입력으로 사용한다. 타겟 언어 토큰 wt의 임베딩 ewt를 초기화하기 위해, 해당 단어의 소스 언어 번역어 ws들을 서브워드 단위로 쪼갠 후 그 임베딩 값들의 평균을 계산한다. [타겟 단어 → 사전 조회 → 소스 언어 서브워드 분해 → 임베딩 평균화 → 타겟 단어 임베딩 할당] 과정을 통해 모델이 모르는 단어에 대해 의미적 기초를 제공한다.
성능 측정에는 nDCG@10과 p-MRR을 주요 지표로 사용했다. 통계적 모델(BM25), 밀집 검색(Dense Retrieval), 교차 엔코더(Cross-encoder), 후기 상호작용(Late-interaction) 등 네 가지 주요 검색 아키텍처를 모두 포함하여 코드 스위칭이 특정 구조에 국한된 문제인지 아니면 범용적인 한계인지 분석했다.
관련 Figure

본 연구가 벤치마크 수립, 다각도 성능 평가, 그리고 어휘 확장을 통한 개선 시도라는 3단계 과정을 거쳐 코드 스위칭 문제를 총체적으로 다루고 있음을 보여준다.
CSR-L, CS-MTEB 구축 및 어휘 확장 실험으로 구성된 전체 연구 프레임워크 개요도.
주요 결과
실험 결과, 최신 다국어 모델인 mE5-large와 bge-m3조차 코드 스위칭 쿼리에서 단일 언어 대비 상당한 성능 저하를 보였다. 특히 영어 중심 모델인 e5-large-v2는 특정 데이터셋에서 nDCG@10 점수가 약 15포인트 이상 하락하는 치명적인 취약성을 드러냈다. 모델 파라미터를 8B까지 확장하더라도 이러한 성능 격차는 완전히 해소되지 않았다.
CS-MTEB 평가에서는 검색 외의 작업에서도 성능 하락이 관찰되었으며, 특히 리랭킹(Reranking) 작업에서 최대 27%의 성능 저하가 발생했다. 이는 코드 스위칭이 문장의 미세한 의미 차이를 구분해야 하는 고정밀 작업에서 더 큰 장애물이 됨을 의미한다.
어휘 확장 기법을 적용했을 때, English-centric 모델인 all-MiniLM-L12-v2의 평균 점수가 30.09에서 37.73으로 상승하는 등 유의미한 개선이 있었으나, 여전히 단일 언어 쿼리 성능에는 미치지 못했다. 시각화 분석(PCA) 결과, 다국어 모델은 영어 모델보다 임베딩 공간의 겹침 현상이 강해 상대적으로 견고했지만, 여전히 코드 스위칭 쿼리는 별도의 군집을 형성하는 경향을 보였다.
기술 상세
본 연구는 코드 스위칭 환경에서 리트리버의 견고성을 체계적으로 분석한 최초의 시도이다. 기술적으로는 Bi-encoder 구조가 쿼리와 문서 간의 상호작용을 독립적으로 처리하기 때문에 쿼리 측의 언어 혼합이 임베딩 불일치를 유발하는 과정을 수학적으로 고찰했다. 특히 임베딩 공간의 기하학적 안정성(Geometric Stability)이 다국어 사전 학습 노출도와 상관관계가 있음을 밝혔다.
구현 측면에서는 MTEB 프레임워크를 확장하여 다양한 태스크(Clustering, Classification, STS 등)에 코드 스위칭을 주입하는 파이프라인을 구축했다. 어휘 확장 알고리즘은 기존 모델의 가중치를 고정한 상태에서 토크나이저와 임베딩 레이어만 수정하는 저비용 방식을 채택하여 효율성을 확보했다. 또한 Cross-encoder와 ColBERT v2 같은 복잡한 아키텍처도 코드 스위칭에 의한 의미론적 노이즈에 취약하다는 점을 실험적으로 입증했다.
한계점
본 연구는 영어와 소수의 파트너 언어(중국어, 일본어 등) 간의 혼합에 집중하고 있어, 로마자 표기법(Romanization)이나 음차(Transliteration)와 같은 더 복잡한 형태의 코드 스위칭 현상을 모두 포괄하지는 못한다. 또한 문서 자체가 혼합 언어로 작성된 경우보다는 쿼리 측의 혼합에 초점을 맞추고 있다는 한계가 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.