핵심 요약
다국어 데이터가 부족한 언어의 모델 성능을 높이기 위해 합성 데이터를 생성할 때, 단순히 가장 큰 모델을 선택하는 것이 최선이 아님을 입증했습니다. 연구진은 POLYGLOT SCORE라는 새로운 지표를 통해 데이터의 다양성과 유창성이 학생 모델의 성능을 결정짓는 핵심 요소임을 밝혀냈습니다.
왜 중요한가
다국어 데이터가 부족한 언어의 모델 성능을 높이기 위해 합성 데이터를 생성할 때, 단순히 가장 큰 모델을 선택하는 것이 최선이 아님을 입증했습니다. 연구진은 POLYGLOT SCORE라는 새로운 지표를 통해 데이터의 다양성과 유창성이 학생 모델의 성능을 결정짓는 핵심 요소임을 밝혀냈습니다.
핵심 기여
POLYGLOT SCORE 프레임워크 제안
합성 데이터의 내재적 품질(다양성, 유창성)과 학생 모델의 외재적 성능(문화적 이해, 추론)을 결합하여 교사 모델의 효과성을 체계적으로 측정하는 단일 지표를 구축했다.
모델 크기와 교사 효과성의 비상관성 입증
Llama 3.1 70B와 같은 대형 모델이 반드시 우수한 교사가 되는 것은 아니며, 모델의 규모보다 생성된 데이터의 프롬프트 다양성과 응답의 유창성이 학생 모델 성능의 93.3%를 설명함을 확인했다.
최적의 다국어 교사 모델 식별
10개의 주요 언어 모델을 6개 언어에 대해 평가한 결과, Gemma 3 27B와 Aya Expanse 32B가 다양한 학생 모델 아키텍처 전반에서 가장 일관되게 높은 성능을 기록했다.
교사-학생 모델 패밀리 일치 권장
교사 모델과 학생 모델의 패밀리(예: Gemma 교사 - Gemma 학생)를 일치시킬 경우, 토큰화 방식과 사전 학습 분포의 유사성으로 인해 성능이 최소 20% 이상 향상되는 '모델 패밀리 정렬' 효과를 발견했다.
핵심 아이디어 이해하기
기존의 지식 증류(Knowledge Distillation)나 합성 데이터 생성 연구는 주로 영어에 집중되어 왔으며, 다국어 환경에서는 단순히 '가장 큰 모델'을 교사로 사용하는 관행이 있었다. 하지만 대형 모델이라도 특정 언어에서는 문법적 오류를 범하거나 문화적 맥락을 놓치는 '능력 격차'가 존재하며, 이는 학생 모델에게 교사의 약점까지 그대로 전수하는 결과를 초래한다.
이 논문은 합성 데이터의 가치를 '내재적 품질'과 '외재적 성과'의 결합으로 정의한다. 내재적 품질은 임베딩 벡터 간의 코사인 거리를 이용한 프롬프트/응답의 다양성, 그리고 언어 모델이 느끼는 당혹도(Perplexity)를 통한 유창성으로 측정된다. 외재적 성과는 이렇게 만들어진 데이터로 학습한 학생 모델이 실제 벤치마크에서 얼마나 점수를 올렸는지를 의미한다.
결과적으로 좋은 다국어 교사는 단순히 정답을 잘 맞히는 모델이 아니라, 학생 모델이 학습하기 좋은 '다양하고 자연스러운 예시'를 풍부하게 제공할 수 있는 모델이다. 연구진은 프롬프트의 길이와 다양성이 확보될 때 학생 모델의 일반화 능력이 극대화된다는 점을 기초적인 통계 분석과 실험을 통해 증명했다.
방법론
연구진은 10개의 교사 모델을 선정하고 6개의 언어(아랍어, 체코어, 독일어, 스페인어, 인도네시아어, 일본어)를 대상으로 세 가지 데이터 생성 전략을 사용했다. 첫째는 소수의 예시를 주는 Generate, 둘째는 영어 프롬프트를 번역하는 Translate, 셋째는 기존 프롬프트에 응답만 생성하는 Respond 방식이다.
내재적 품질 측정 시에는 Llama-Embed-Nemotron-8B를 사용하여 텍스트를 벡터화하고 코사인 거리를 계산해 다양성을 측정했다. 또한 M-Prometheus 14B를 LLM-as-a-judge로 활용하여 응답의 품질을 1-5점으로 수치화했다. 수식적으로는 각 지표의 z-score를 평균 내어 Intrinsic Score를 산출했다.
외재적 성능 측정을 위해 OLMo 3 7B를 베이스 모델로 삼아 생성된 1.4M개의 데이터로 SFT를 수행했다. 이후 Global-MMLU Lite(문화/지식), M-RewardBench(대화), M-GSM(수학) 벤치마크를 통해 성능 향상분인 PGR(Performance Gap Recovered)을 계산했다. 최종적인 POLYGLOT SCORE는 내재적 점수와 외재적 점수의 합산에 z-score 정규화를 적용하여 도출했다.
주요 결과
Gemma 3 27B가 평균 0.726점으로 전체 1위를 차지했으며, Aya Expanse 32B가 0.706점으로 그 뒤를 이었다. 반면 파라미터 수가 훨씬 많은 Llama 3.1 70B는 0.140점에 그쳐 모델 크기가 교사로서의 자질을 보장하지 않음을 보여주었다. 특히 독일어와 스페인어 같은 고자원 언어에서는 모든 모델이 비교적 우수했으나, 아랍어와 인도네시아어에서는 모델 간 성능 격차가 크게 나타났다.
데이터 생성 방식에 따른 분석 결과, 독일어와 같은 고자원 언어에서는 Generate 방식이 가장 효과적이었으나, 자원이 부족한 언어에서는 기존 프롬프트를 활용하는 Respond나 Translate 방식이 훨씬 높은 POLYGLOT SCORE를 기록했다. 이는 데이터가 부족한 언어일수록 교사 모델이 스스로 새로운 프롬프트를 창의적으로 만들어내는 데 한계가 있음을 시사한다.
관련 Figure

데이터 양이 증가함에 따라 성능이 향상되지만, 언어별로 10,000개(10^4) 샘플 부근에서 성능 향상 폭이 둔화되는 수렴 지점을 보여준다. 이는 무조건 많은 데이터를 생성하기보다 고품질의 10k 데이터를 확보하는 것이 효율적임을 뒷받침한다.
합성 데이터 규모에 따른 학생 모델의 평균 다국어 성능 변화 그래프
기술 상세
본 연구는 240개의 학생 모델을 직접 학습시켜 얻은 방대한 실험 데이터를 기반으로 한다. 분석 결과, 프롬프트 다양성(Distinct Prompts)과 응답 유창성(Perplexity)이 주성분 분석(PCA)에서 가장 높은 가중치를 가졌으며, 이들 지표만으로도 학생 모델의 실제 벤치마크 성능을 R²=0.664의 높은 상관관계로 예측할 수 있음을 밝혔다.
또한 '모델 패밀리 정렬' 현상을 심층 분석하여, 동일한 토크나이저를 공유하는 모델끼리 데이터를 주고받을 때 토큰화 효율성과 데이터 분포의 일치로 인해 성능이 크게 향상됨을 확인했다. 이는 향후 지식 증류 파이프라인 설계 시 아키텍처의 유사성을 최우선 고려해야 함을 시사하는 중요한 기술적 발견이다.
관련 Figure

인터넷상에 데이터가 많은 언어(>5%)일수록 교사 모델이 더 높은 품질의 합성 데이터를 생성하며, 이는 결과적으로 더 높은 POLYGLOT SCORE로 이어진다는 강한 양의 상관관계(rho=0.886)를 보여준다.
CommonCrawl 내 언어 비중과 POLYGLOT SCORE 간의 상관관계 분석
한계점
본 연구는 6개의 언어에 국한되어 평가되었으며, 더 많은 저자원 언어나 방언에 대한 일반화 여부는 추가 검증이 필요하다. 또한 Translate 방식에서 발생하는 번역체(Translationese) 아티팩트가 학생 모델의 장기적인 언어 생성 능력에 미치는 부정적 영향에 대해서는 깊게 다루지 않았다.
실무 활용
다국어 LLM을 개발하거나 특정 언어에 특화된 소형 모델을 구축하려는 엔지니어들에게 실질적인 모델 선택 가이드를 제공합니다.
- 한국어 등 비영어권 특화 소형 모델(SLM) 학습을 위한 고품질 합성 데이터셋 구축
- 제한된 예산 내에서 가장 효율적인 교사 모델(Gemma 3 27B 등)을 선택하여 학습 비용 최적화
- 교사 모델과 학생 모델의 패밀리를 일치시켜 지식 전이 효율 극대화
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.