코드 혼합
화자가 대화 중에 두 개 이상의 언어나 방언을 섞어서 사용하는 현상을 말한다. 힌글리시(Hinglish)처럼 힌디어와 영어가 혼용되는 언어 모델 학습에서 구현하기 까다로운 핵심 요소이다.
RAG 성능 저하의 주범, 코드 혼용 텍스트를 정규화하는 오픈소스 툴킷
힌글리시 데이터의 늪, 통계적 합성 방식은 LLM 학습에 유효할까?