핵심 요약
인도는 텍스트보다 음성 인터페이스를 선호하는 '목소리 우선' 국가이지만, 다양한 언어와 혼합 언어(Code-mixing) 특성 때문에 TTS 성능 평가가 매우 어려웠습니다. 이 논문은 1,900명 이상의 원어민을 동원해 7개의 최신 TTS 시스템을 다차원적으로 평가하여 실제 사용자가 어떤 목소리를 더 신뢰하고 선호하는지에 대한 정밀한 기준을 제시합니다.
왜 중요한가
인도는 텍스트보다 음성 인터페이스를 선호하는 '목소리 우선' 국가이지만, 다양한 언어와 혼합 언어(Code-mixing) 특성 때문에 TTS 성능 평가가 매우 어려웠습니다. 이 논문은 1,900명 이상의 원어민을 동원해 7개의 최신 TTS 시스템을 다차원적으로 평가하여 실제 사용자가 어떤 목소리를 더 신뢰하고 선호하는지에 대한 정밀한 기준을 제시합니다.
핵심 기여
다차원 쌍체 비교 평가 프레임워크 설계
단순한 전체 선호도를 넘어 이해도, 표현력, 음질, 생동감, 환각, 노이즈 등 6가지 세부 지표를 동시에 측정하는 통제된 평가 체계를 구축했다.
10개 인도 언어 대상 대규모 벤치마크 구축
5,357개의 문장과 12만 개 이상의 쌍체 비교 데이터를 포함하며, 특히 인도에서 흔히 발생하는 영어-현지어 혼합 문장(Code-mixed)과 수식, 약어 등을 포함한 실제 배포 환경의 언어 현상을 반영했다.
Bradley-Terry 모델 기반의 통계적 리더보드 산출
수집된 선호도 데이터를 바탕으로 모델 간의 상대적 성능을 Elo 점수 형태의 리더보드로 변환하여 Gemini 2.5 Pro TTS가 대부분의 언어와 도메인에서 1위를 차지함을 확인했다.
SHAP 분석을 통한 인간 선호도 결정 요인 식별
기계 학습 모델을 활용해 분석한 결과, 사용자의 최종 선택에 가장 큰 영향을 미치는 요소는 표현력(Expressiveness)과 이해도(Intelligibility)임을 정량적으로 증명했다.
관련 Figure

표현력(Expressiveness)이 사용자의 최종 선택에 가장 결정적인 영향을 미친다는 것을 수치로 보여준다. 노이즈나 환각 제어보다 감정 전달이 TTS 만족도에 더 중요함을 시사한다.
전체 선호도 결정에 대한 각 세부 속성의 SHAP 기여도 차트
핵심 아이디어 이해하기
기존의 TTS 평가는 개별 음성을 듣고 1~5점을 매기는 MOS(Mean Opinion Score) 방식을 주로 사용했다. 하지만 이는 평가자마다 '좋음'의 기준이 달라 점수 편차가 크고, 특히 인도처럼 언어적 배경이 다양한 환경에서는 객관성을 유지하기 힘들다. 이 논문은 두 모델의 음성을 동시에 들려주고 더 나은 것을 고르게 하는 쌍체 비교(Pairwise Comparison) 방식을 채택하여 평가자의 주관적 편향을 최소화했다.
수집된 비교 데이터는 Bradley-Terry 모델이라는 확률적 랭킹 알고리즘을 통해 처리된다. 이는 각 모델이 승리할 확률을 바탕으로 잠재적인 성능 점수를 계산하는 방식으로, 체스나 게임의 Elo 레이팅과 유사한 원리다. 이를 통해 서로 다른 평가자가 매긴 수만 개의 파편화된 선택지를 하나의 일관된 성능 지표로 통합할 수 있다.
단순히 '어떤 모델이 좋은가'를 넘어 '왜 좋은가'를 분석하기 위해 SHAP(Shapley Additive Explanations) 기법을 도입했다. 이는 게임 이론에 근거하여 각 세부 지표(음질, 속도 등)가 최종 선호도 결정에 기여한 정도를 수치화한다. 분석 결과, 기본적인 노이즈나 환각이 제거된 상태에서는 목소리의 감정과 억양을 살리는 '표현력'이 사용자의 마음을 사로잡는 핵심 열쇠임을 밝혀냈다.
방법론
평가 데이터셋은 10개 인도 언어의 16개 도메인에서 수집된 5,357개 문장으로 구성된다. 입력값으로 일반 문장(Normalized), 수식/기호 포함 문장(Symbolic), 영어 혼합 문장(Code-mixed) 세 가지 유형을 준비하여 모델의 처리 능력을 다각도로 검증한다.
평가 프로세스는 2단계로 진행된다. 1단계에서 평가자는 두 음성을 듣고 전체적인 선호도(Model A, B, Both Good, Both Bad)를 선택한다. 2단계에서는 동일한 음성 쌍에 대해 6가지 세부 축(이해도, 표현력, 음질, 생동감, 환각, 노이즈)별로 점수를 매긴다. 이때 1단계의 선택은 수정할 수 없도록 고정하여 평가자의 즉각적인 청각적 판단이 왜곡되지 않도록 설계했다.
통계 모델링에서는 Bradley-Terry 모델을 사용하여 최대 우도 추정(Maximum Likelihood Estimation)을 수행한다. 승리 확률 P(i > j) = exp(s_i) / (exp(s_i) + exp(s_j)) 수식을 통해 각 모델의 잠재 점수 s를 계산한다. 지수 함수 exp는 점수 차이가 클수록 승리 확률을 급격히 높여 모델 간의 성능 격차를 명확히 드러내며, 전체 합산 결과는 리더보드 상의 순위로 변환된다.
주요 결과
Gemini 2.5 Pro TTS가 10개 언어 중 9개 언어에서 1위를 기록하며 가장 압도적인 성능을 보였다. 특히 70%의 승률(Win Rate)과 1128.53의 BT 점수를 기록하여 2위 그룹인 Eleven Labs v3 및 Sonic 3와 통계적으로 유의미한 격차를 벌렸다.
입력 유형별 분석 결과, 모든 모델이 영어와 현지어가 섞인 Code-mixed 문장에서 성능 하락을 보였으나 Gemini 2.5 Pro는 이 환경에서도 가장 높은 점수(1135.45)를 유지하며 견고함을 증명했다. 반면 오픈소스 모델인 Indic F5는 모든 지표에서 최하위를 기록하여 상용 API 모델과의 성능 격차가 여전히 큼을 보여주었다.
평가 신뢰도 분석에서는 평가자 수가 100~200명에 도달할 때 순위의 상관계수(Spearman's rho)가 0.95 이상으로 안정화됨을 확인했다. 이는 대규모 평가 시 무한정 인원을 늘리기보다 적절한 수의 숙련된 평가자와 충분한 문장 수(약 1,000개 이상)를 확보하는 것이 효율적임을 시사한다.
관련 Figure

Gemini 2.5 Pro가 대부분의 언어에서 최상단에 위치하며, 언어별로 모델 간의 성능 격차가 어떻게 나타나는지 보여준다. 특히 마라티어(mr)에서는 Eleven Labs와 접전을 벌이는 등 언어별 특이점을 확인할 수 있다.
10개 인도 언어별 TTS 모델들의 Bradley-Terry 점수 분포 그래프

비즈니스, 대화, 의료 등 다양한 상황에서 모델들의 순위 변화를 보여준다. Gemini는 모든 도메인에서 1위를 유지하지만, 다른 모델들은 도메인에 따라 순위 변동이 심함을 알 수 있다.
16개 도메인별 TTS 모델 순위 히트맵

평가 인원과 데이터 양이 늘어남에 따라 순위의 일관성(Spearman rho)이 어떻게 수렴하는지 보여준다. 약 200명의 평가자면 충분히 신뢰할 수 있는 순위가 도출됨을 증명한다.
평가자 수 및 문장 수 증가에 따른 리더보드 안정성 분석 그래프
기술 상세
본 연구는 다국어 TTS 평가에서 발생하는 높은 분산을 제어하기 위해 '통제된 다차원 쌍체 비교' 아키텍처를 제안한다. 핵심은 전체 선호도와 세부 속성 평가를 분리하여 인지적 부하를 줄이면서도 진단적 깊이를 확보한 것이다. Bradley-Terry 모델을 통해 개별 평가자의 주관적 척도를 공통된 잠재 공간(Latent Space)으로 매핑하여 비교 가능한 수치로 변환했다.
SHAP 분석을 통한 해석 가능성(Interpretability) 확보는 본 연구의 기술적 차별점이다. XGBoost 분류기를 사용하여 6개 속성으로부터 전체 선호도를 예측하도록 학습시킨 후, 각 속성의 Shapley Value를 계산했다. 이는 특정 속성이 모델의 승리 확률을 얼마나 높였는지 기여도를 산출하는 방식으로, 표현력(+1.01)과 이해도(+0.62)가 가장 높은 가중치를 가짐을 정량화했다.
또한 부트스트랩 리샘플링(Bootstrap Resampling)을 500회 수행하여 95% 신뢰 구간을 산출함으로써 리더보드 순위의 통계적 유의성을 검증했다. 두 모델의 신뢰 구간이 겹치지 않을 때만 성능 차이가 있다고 판단하는 보수적인 기준을 적용하여 리더보드의 신뢰도를 높였다.
관련 Figure

각 모델이 어떤 속성(음질, 표현력 등)에서 강점을 가지는지 시각화한다. Gemini는 육각형이 고르게 큰 반면, 다른 모델들은 특정 속성에서 움푹 들어간 형태를 보여 약점을 파악할 수 있게 한다.
6가지 세부 지표별 모델 성능을 나타내는 레이더 차트
한계점
평가 대상이 7개의 특정 시스템으로 제한되어 있어 모든 최신 모델을 대변하지 못할 수 있다. 또한 평가자들이 실험실 환경이 아닌 크라우드소싱 환경에서 참여했기 때문에 청취 장비의 품질 차이가 결과에 미세한 영향을 주었을 가능성이 있다.
실무 활용
인도 시장을 타겟으로 하는 서비스 개발자들에게 어떤 TTS 엔진이 가장 한국적인 정서와 언어적 특성에 적합한지 객관적인 지표를 제공한다. 특히 혼합 언어 처리가 중요한 챗봇이나 교육용 서비스 설계 시 유용하다.
- 인도 다국어 커머스 플랫폼의 음성 안내 시스템 구축
- 영어와 힌디어가 섞인 일상 대화를 처리하는 AI 가상 비서
- 인도 현지 교육 콘텐츠를 위한 자동 더빙 및 오디오북 제작
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.