코드 혼용 텍스트
한 문장 내에서 두 개 이상의 언어(예: 힌디어와 영어)가 섞여 사용되는 텍스트 형태이다. 일반적인 임베딩 모델의 분포를 벗어나기 때문에 다국어 RAG 시스템 구축 시 검색 정확도를 떨어뜨리는 주요 원인이 된다.