핵심 요약
기존의 TTS 평가는 단어의 정확도나 전체적인 자연스러움에만 집중하여, 인도어 특유의 권설음이나 기음 같은 미세한 억양 차이를 잡아내지 못했다. 이 논문은 억양을 6가지 물리적 차원으로 분해하여 측정함으로써, 상용 모델들이 실제로는 원어민과 얼마나 다른 억양을 내는지 수치화할 수 있는 도구를 제공한다.
왜 중요한가
기존의 TTS 평가는 단어의 정확도나 전체적인 자연스러움에만 집중하여, 인도어 특유의 권설음이나 기음 같은 미세한 억양 차이를 잡아내지 못했다. 이 논문은 억양을 6가지 물리적 차원으로 분해하여 측정함으로써, 상용 모델들이 실제로는 원어민과 얼마나 다른 억양을 내는지 수치화할 수 있는 도구를 제공한다.
핵심 기여
해석 가능한 6차원 억양 지표 PSP 정의
권설음 붕괴(RR), 기음 충실도(AF), 모음 길이 충실도(LF), 타밀어 특유 음소 충실도(ZF), 음성 임베딩 거리(FAD), 운율 시그니처 분산(PSD)으로 억양을 세분화하여 정의했다.
Wav2Vec2-XLS-R 기반의 어쿠스틱 프로브 구현
ASR 전사 결과에 의존하지 않고, Wav2Vec2-XLS-R의 9번째 레이어 임베딩을 활용해 원어민 중심점(Centroid)과의 거리를 측정하는 물리적 평가 방식을 도입했다.
인도어 TTS 모델 5종에 대한 벤치마크 수행
ElevenLabs v3, Cartesia Sonic-3, Sarvam Bulbul 등 주요 모델을 힌디어, 텔루구어, 타밀어 환경에서 평가하여 모델별 억양 강점과 약점을 분석했다.
핵심 아이디어 이해하기
기존 TTS 평가의 핵심인 WER(단어 오류율)은 모델이 단어를 '맞게' 말했는지는 알려주지만 '어떻게' 말했는지는 알려주지 않는다. 특히 인도어에서는 혀를 입천장에 대고 소리 내는 권설음(Retroflex)이나 숨을 강하게 내뱉는 기음(Aspiration)이 중요한데, 외국계 모델들은 이를 일반적인 치음이나 무기음으로 뭉뚱그려 발음하는 경향이 있다. 이는 마치 한국어의 'ㄱ'과 'ㅋ'을 구분하지 못하고 발음하는 것과 유사한 한계를 만든다.
이 논문은 이러한 억양의 차이를 다차원 벡터 공간에서의 거리로 해석한다. Wav2Vec2-XLS-R과 같은 사전 학습된 음성 모델의 중간 레이어 임베딩은 음소의 물리적 특징을 잘 보존하고 있다. 여기서 원어민이 발음한 특정 음소들의 평균 위치(Centroid)를 구하고, TTS 모델이 생성한 음소의 위치가 원어민 중심점과 얼마나 가까운지, 혹은 잘못된 대체 음소(Substitute)의 중심점과 얼마나 가까운지를 계산하여 억양의 '순도'를 측정한다.
결과적으로 이 방식은 단순히 '듣기 좋다'는 주관적 평가를 넘어, '권설음 발음이 원어민 대비 40% 수준으로 붕괴되었다'와 같이 개발자가 즉각적으로 수정할 수 있는 구체적인 기술적 피드백을 제공한다.
방법론
전체 접근 방식은 음소 대체 프로필(Phoneme Substitution Profile)을 통해 억양을 수치화하는 것이다. 먼저 IndicTTS 및 Rasa 데이터셋에서 추출한 500개의 원어민 클립을 사용하여 각 언어별 음소 중심점(Centroid)을 구축한다. 이때 Wav2Vec2-XLS-R 300M 모델의 9번째 레이어 임베딩을 특징 벡터로 사용한다.
핵심 메커니즘인 PSP 지표 계산은 다음과 같다. 특정 음소 p에 대해 모델이 생성한 오디오의 임베딩 φ(xp)가 주어지면, 원어민 중심점 μ_nat 및 대체 음소 중심점 μ_sub와의 코사인 유사도를 각각 계산한다. [유사도 값 입력 → sim(φ, μ_nat) / (sim(φ, μ_nat) + sim(φ, μ_sub)) 연산 수행 → 0에서 1 사이의 값 출력] 이 결과값이 1에 가까울수록 원어민에 가까운 발음임을 의미하며, 이를 전체 문장에 대해 가중 평균하여 최종 점수를 산출한다.
운율 분석을 위해 PSD(Prosodic Signature Divergence)를 도입했다. 이는 피치 범위, 로그 기본 주파수(log-F0) 평균, 발화 속도, nPVI(음절 간 간격 변화율), 로그 지속 시간 등 5가지 요소를 포함하는 5차원 벡터 공간에서의 Fréchet 거리를 계산하여 원어민의 리듬 및 억양 분포와 모델의 분포가 얼마나 일치하는지 측정한다.
주요 결과
힌디어 평가 결과, ElevenLabs와 Cartesia 등 상용 모델들은 권설음 및 기음 붕괴율이 0~4.5% 수준으로 매우 낮아 이미 성숙한 단계에 도달했음이 확인되었다. 반면 텔루구어와 타밀어에서는 권설음 붕괴율이 각각 약 40%, 68%까지 치솟으며 언어적 난이도에 따라 성능이 급격히 저하되는 양상을 보였다.
주목할만한 점은 WER 순위와 PSP 순위의 불일치이다. ElevenLabs v3는 힌디어에서 가장 낮은 WER(0.006)을 기록했으나, 음성 분포의 자연스러움을 나타내는 FAD 지표에서는 Sarvam Bulbul에 뒤처지는 2위를 기록했다. 또한 텔루구어에서 ElevenLabs는 매우 평평하고 단조로운 운율(PSD)을 보여, 단어는 정확하지만 기계적인 목소리를 내는 한계가 드러났다.
타밀어 실험에서는 Indic Parler-TTS가 5개 지표 중 4개(RR, ZF, LF, PSD)에서 승리하며 인도어 특화 모델의 강점을 입증했다. 하지만 FAD 지표에서는 여전히 Sarvam 모델이 우세하여, 단일 모델이 모든 억양 차원에서 파레토 최적(Pareto-optimal)을 달성하지 못함을 보여주었다.
기술 상세
PSP는 기존의 PSR(Phoneme Shift Rate)이 규칙 기반(Rule-based)인 것과 달리 어쿠스틱 프로브(Acoustic Probe) 기반이라는 점이 기술적 차별점이다. 이는 ASR 모델의 성능에 제약을 받지 않으며, 음성 신호 자체의 물리적 특성을 직접 비교한다.
구현 측면에서 Wav2Vec2-XLS-R의 9번째 레이어를 선택한 이유는 해당 레이어가 음소의 음향적 특징을 가장 잘 포착한다는 선행 연구 결과를 반영한 것이다. 강제 정렬(Forced Alignment)을 위해 각 언어에 최적화된 CTC 정렬기(anuragshas, ai4bharat 등)를 사용하여 음소 단위의 타임스탬프를 확보한다.
실험에 사용된 Praxy Voice 모델은 Chatterbox 아키텍처를 기반으로 하며, R6 버전에서는 1,220시간의 다국어 데이터를 학습하고 LoRA 파인튜닝을 적용했다. 특히 BYOR(Bring Your Own Reference) 모드를 통해 9초 분량의 원어민 음성 샘플만으로도 PSD와 RR 지표를 대폭 개선할 수 있음을 입증했다.
한계점
현재 사용된 CTC 정렬기의 정확도가 힌디어에 비해 텔루구어와 타밀어에서 낮아, 원어민 음성에서도 일정 수준의 '노이즈 플로어(Noise Floor)'가 발생한다. 또한 v1 버전에서는 10개 내외의 적은 샘플로 테스트를 수행하여 통계적 유의성이 완벽하지 않으며, 코드 스위칭(Code-mixing) 상황에 대한 평가는 포함되지 않았다.
실무 활용
인도어 TTS 서비스를 개발하거나 고도화하려는 엔지니어들이 모델의 억양 문제를 진단하고 개선하는 도구로 즉시 활용 가능하다.
- TTS 모델 업데이트 전후의 억양 품질 변화 정량적 비교
- 특정 지역 언어(텔루구어, 타밀어 등)의 발음 정확도 집중 개선을 위한 진단
- 상용 TTS API(ElevenLabs 등)와 오픈소스 모델 간의 억양 충실도 벤치마킹
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.