핵심 요약
수천 시간의 GPU 학습 비용 없이도 기존 오픈소스 TTS 모델을 인도어(텔루구어, 타밀어 등)에 맞게 확장할 수 있는 효율적인 방법론을 제시한다. 이는 고비용의 상용 API에 의존하지 않고도 특정 언어에 특화된 고품질 음성 합성 시스템을 구축할 수 있음을 의미한다.
왜 중요한가
수천 시간의 GPU 학습 비용 없이도 기존 오픈소스 TTS 모델을 인도어(텔루구어, 타밀어 등)에 맞게 확장할 수 있는 효율적인 방법론을 제시한다. 이는 고비용의 상용 API에 의존하지 않고도 특정 언어에 특화된 고품질 음성 합성 시스템을 구축할 수 있음을 의미한다.
핵심 기여
BUPS (Brahmic Unified Phoneme Space) 개발
데바나가리, 텔루구, 타밀 등 다양한 브라만 계열 문자를 ISO-15919 표준에 따라 로마자로 결정론적으로 변환하는 라우팅 레이어이다. 이를 통해 라틴 문자 기반 토크나이저를 사용하는 기존 모델이 인도어 데이터를 처리할 수 있게 한다.
최소 개입 LoRA 어댑테이션 전략
810M 파라미터 규모의 Chatterbox 모델에서 텍스트 토큰 예측기(t3)의 Attention 프로젝션 층에만 LoRA를 적용했다. 전체 파라미터의 0.97%인 7.86M개만 학습시켜 연산 효율성을 극대화했다.
추론 시 음성 프롬프트 복구 레시피
어쿠스틱 디코더를 재학습시키는 대신, 8-11초 분량의 동일 언어 참조 음성과 특정 샘플링 파라미터(exaggeration 0.7, temperature 0.6, min_p 0.1) 조합을 통해 상용 수준의 음향 품질을 확보했다.
핵심 아이디어 이해하기
기존의 다국어 TTS 모델인 Chatterbox는 라틴 문자 기반 언어에는 강점이 있지만, 텔루구어나 타밀어 같은 인도어 계열 문자는 토큰화조차 하지 못하는 한계가 있다. 이를 해결하기 위해 논문은 브라만 계열 문자를 음성학적 정보가 보존된 로마자로 변환하여 모델이 이미 알고 있는 '라틴 문자 경로'를 통해 인도어를 처리하도록 유도한다.
단순히 문자만 바꾸는 것으로는 부족하기 때문에, 텍스트와 음성 토큰 사이의 관계를 학습하는 텍스트 헤드 부분에만 가벼운 LoRA 어댑터를 추가한다. 이때 모델이 이미 잘 알고 있는 힌디어를 프록시(Proxy) 언어 ID로 사용하여, 모델이 낯선 인도어 데이터를 익숙한 음향 공간(Acoustic Manifold) 위에서 처리할 수 있게 돕는다.
결과적으로 무거운 어쿠스틱 디코더는 건드리지 않고도 텍스트 처리 방식과 추론 시의 프롬프트 구성만 최적화함으로써, 수천 시간의 데이터 학습 없이도 상용 엔진인 ElevenLabs나 Sarvam Bulbul에 근접하는 음성 품질을 달성했다.
방법론
전체 시스템은 입력 텍스트의 종류에 따라 세 가지 경로로 분기되는 라우팅 아키텍처를 가진다. 텔루구어와 타밀어는 BUPS와 LoRA가 적용된 경로를, 힌디어는 순정 모델 경로를, 코드 혼합(Code-mixed) 입력은 별도의 IndicF5 경로를 사용한다.
BUPS 단계에서는 입력 문자열 s를 유니코드 블록 범위에 따라 스크립트 단위로 분할한다. 각 브라만 문자 구간을 ISO-15919 표준으로 변환한 뒤 다시 결합하여 라틴 문자 위주의 문자열을 생성한다. [입력 문자열 → 유니코드 범위 필터링 → 로마자 변환 → 결합된 라틴 문자열] 과정을 거쳐 토크나이저가 인식 가능한 형태로 만든다.
LoRA 학습 시에는 Chatterbox의 t3 Transformer 블록 내 q, k, v, o 프로젝션 층만 타겟으로 삼는다. Rank 32, Alpha 64 설정을 사용하며, 약 1,220시간의 라이선스된 인도어 음성 데이터를 활용해 8,000 스텝 동안 학습을 진행한다. 이때 모든 인도어 입력에 대해 'hindi' 언어 ID를 강제로 부여하여 모델의 기존 지식을 재활용한다.
주요 결과
PSP(Phoneme Substitution Profile) 벤치마크 측정 결과, 텔루구어의 권설음 붕괴(Retroflex collapse)율은 26.7%로 상용 모델인 Sarvam Bulbul(33.3%)보다 우수한 성능을 보였다. 타밀어의 'zha' 발음 정확도 역시 71%를 기록하며 상용 모델 평균(86% 붕괴) 대비 명확한 개선을 입증했다.
힌디어의 경우 LLM-WER 0.025를 기록하여 Cartesia Sonic-3와 동등한 수준의 의미론적 정확도를 확보했다. 코드 혼합(Code-mixed) 텍스트 경로에서는 IndicF5와 LLM 기반 전처리를 결합하여 기존 0.800.85 수준이던 WER을 0.140.27까지 대폭 낮추는 성과를 거두었다.
기술 상세
아키텍처는 ResembleAI Chatterbox(810M)를 베이스로 하며, 텍스트 헤드 t3, 어쿠스틱 디코더 s3gen, 보이스 인코더 ve로 구성된다. LoRA는 t3의 어텐션 레이어에만 적용되어 파라미터 효율성을 극대화했다. 학습 시 bf16 혼합 정밀도와 AdamW 옵티마이저를 사용했으며, 단일 A100 GPU에서 약 11시간 만에 학습을 완료할 수 있는 저비용 구조를 증명했다. 특히 추론 시 Config B로 정의된 샘플링 파라미터(exaggeration, temperature, min_p)의 미세 조정이 음향적 자연스러움을 회복하는 데 결정적인 역할을 수행함을 ablation study를 통해 확인했다.
한계점
10개의 문장으로 구성된 파일럿 세트를 사용했으므로 통계적 유의성이 완벽하지 않을 수 있다. 또한 어쿠스틱 디코더(s3gen)에 대한 LoRA 적응은 연산 자원 한계로 인해 실험되지 않았으며, 주관적 평가인 MOS(Mean Opinion Score) 테스트는 공식적으로 수행되지 않았다.
실무 활용
저비용으로 고품질 인도어 TTS 서비스를 구축하고자 하는 개발자 및 기업에게 즉시 적용 가능한 솔루션을 제공한다.
- 인도 현지 언어(텔루구어, 타밀어 등)를 지원하는 저비용 고객 응대 봇 구축
- 상용 API 비용 부담 없이 오픈소스 모델 기반의 개인화된 음성 합성 서비스 구현
- 힌디어와 영어가 섞인 코드 혼합 텍스트의 자연스러운 음성 변환
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.