LLM 기반 텍스트 음성 변환(TTS) 시스템의 품질 및 견고성 향상

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

LLM 기반 TTS는 자연스러운 음성을 생성하지만 다국어 합성 시 억조 전이와 자기회귀 모델 특유의 할루시네이션 문제가 발생한다. 아마존은 LoRA를 활용한 데이터 증강으로 화자의 정체성을 유지하면서 현지 억조를 구현하고, CFG를 통해 표현력을 강화했다. 특히 CoT(Chain-of-Thought) 추론을 도입하여 음성 생성 전 음소와 길이를 예측함으로써 반복이나 끊김 현상을 방지하는 구조를 설계했다. 실험 결과 다양한 언어권에서 품질이 5~20% 향상되었으며, 시간당 치명적 오류 발생률을 1초 미만으로 낮추는 성과를 거두었다.

배경

LLM(Large Language Models)의 기본 작동 원리, TTS(Text-to-Speech) 시스템의 전통적인 파이프라인 지식, LoRA 및 CFG와 같은 모델 최적화 기법에 대한 이해

대상 독자

TTS 시스템을 개발하거나 LLM 기반 음성 합성 기술의 신뢰성을 높이고자 하는 AI 엔지니어 및 연구원

의미 / 영향

이 연구는 LLM 기반 TTS가 가진 고질적인 불안정성 문제를 해결할 수 있는 구체적인 아키텍처를 제시한다. 특히 CoT와 가드레일을 결합한 방식은 음성 합성뿐만 아니라 다른 자기회귀 생성 모델의 신뢰성 향상에도 응용될 수 있는 중요한 사례이다.

섹션별 상세

다국어 TTS에서 원어민의 억조가 타겟 언어에 섞이는 '억조 전이(Accent Leakage)'가 주요 병목 현상이었다. LoRA를 사용해 특정 지역 데이터로 모델을 미세 조정함으로써 화자의 고유 목소리는 유지하면서 타겟 언어의 원어민 발음을 정확히 구현했다. 이 방식은 화자 정체성 손실 없이 다국어 보이스 클로닝을 가능하게 한다.

음성의 감정과 표현력을 높이기 위해 확산 모델에서 주로 쓰이는 CFG(Classifier-Free Guidance) 기법을 도입했다. CFG를 통해 생성된 참조 오디오를 추론 시 조건으로 활용하여 모델이 더 풍부한 운율과 감정 표현을 학습하도록 유도했다. MUSHRA 테스트 결과 미국 남부 영어에서 20.05%, 독일어에서 14.12% 등 전반적인 품질 향상이 확인됐다.

자기회귀 방식의 LLM TTS는 음성 길이를 명시적으로 모델링하지 않아 할루시네이션이나 문장 끊김이 빈번했다. CoT 추론을 적용해 음성 토큰 생성 전 음소 시퀀스와 지속 시간을 먼저 예측하게 함으로써 생성 과정의 계획성을 확보했다. 이를 통해 모델이 'read'와 같은 이형동의어나 특이한 이름을 더 정확하게 발음할 수 있게 됐다.

예측된 음소 수와 지속 시간을 가드레일(Guardrails)의 체크포인트로 활용하여 생성 결과의 정합성을 검증한다. 실제 출력물의 길이가 예측치와 크게 다를 경우 에이전트가 이를 감지하고 샘플링 파라미터를 조정하여 재생성을 수행한다. 이러한 자동화된 검증 루프는 프로덕션 환경에서의 신뢰성을 대폭 강화한다.

학습 데이터의 품질을 높이기 위해 ASR 기반 지표와 LLM 어텐션 메커니즘 지표를 결합한 데이터 필터링을 수행했다. ASR은 전사 오류를 잡아내고 어텐션 지표는 데이터 간의 정렬 상태를 평가하여 표현력이 풍부한 데이터를 선별한다. 이 기법들을 종합 적용한 결과 장문 텍스트에서 치명적 오류 발생 시간을 시간당 1초 미만으로 단축했다.

이미지 분석

Diagram
텍스트 입력이 음성 토큰으로 변환되는 과정을 시각화하며, 본문에서 설명하는 다국어 음성 합성 및 표현력 개선의 개념적 흐름을 뒷받침한다.
LLM 기반 TTS 시스템의 작동 원리를 보여주는 애니메이션.

실무 Takeaway

LLM 기반 TTS의 할루시네이션 문제를 해결하기 위해 CoT를 도입하여 음성 생성 전 음소와 길이를 미리 계획하는 구조를 설계해야 한다.
다국어 음성 클로닝 시 화자의 정체성과 타겟 언어의 억조를 분리하기 위해 LoRA 기반의 지역 특화 데이터 증강과 CFG를 결합하여 활용할 수 있다.
생성된 음성의 신뢰성을 확보하기 위해 사전 예측된 지속 시간과 실제 출력 길이를 비교하는 가드레일 기반의 재생성 로직을 구축해야 한다.

언급된 리소스

문서Improving quality and robustness in LLM-based text-to-speech systems