T5Gemma-TTS 기술 보고서: 인코더-디코더 구조를 활용한 고성능 음성 합성 모델

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

T5Gemma-TTS는 기존 디코더 전용 아키텍처의 한계인 긴 문장에서의 텍스트 조건화 약화 문제를 해결하기 위해 인코더-디코더 구조를 채택한 코덱 언어 모델이다. 40억 개의 파라미터를 가진 T5Gemma 백본을 기반으로 하며, 모든 디코더 레이어에서 교차 어텐션을 통해 텍스트 정보를 지속적으로 주입한다. 특히 새롭게 도입된 PM-RoPE 기술은 정규화된 진행 신호를 통해 음성 생성 길이를 정밀하게 추적하고 제어한다. 실험 결과 일본어에서 기존 모델인 XTTSv2보다 높은 화자 유사도를 기록했으며, 학습 데이터에 포함되지 않은 한국어에서도 뛰어난 제로샷 성능을 입증했다.

배경

Transformer 아키텍처 및 Attention Mechanism 이해, Neural Codec 및 Language Model 기반 음성 합성 개념, Rotary Position Embedding(RoPE)의 작동 원리

대상 독자

음성 합성(TTS) 및 오디오 생성 모델을 연구하거나 개발하는 AI 엔지니어

의미 / 영향

이 연구는 인코더-디코더 구조가 음성 합성의 안정성을 높이는 데 유효함을 입증했으며, 특히 PM-RoPE를 통한 길이 제어 방식은 향후 오디오 생성 모델의 표준 기법이 될 가능성이 높다. 또한 한국어 데이터 없이도 높은 성능을 낸 결과는 다국어 사전 학습 모델의 강력한 전이 학습 능력을 보여준다.

섹션별 상세

기존 디코더 전용 모델은 입력 텍스트를 접두사로 처리하여 문장이 길어질수록 텍스트 조건화가 약해지는 구조적 결함이 있었다. T5Gemma-TTS는 인코더-디코더 아키텍처를 도입하여 모든 디코더 레이어에서 양방향 텍스트 표현을 교차 어텐션으로 참조함으로써 이 문제를 해결했다.

4B 규모의 T5Gemma 사전 학습 모델을 백본으로 사용하여 별도의 음소 변환 과정 없이 서브워드 단위로 텍스트를 직접 처리한다. 이를 통해 풍부한 언어적 지식을 상속받아 복잡한 문장 구조에서도 자연스러운 음성 합성이 가능해졌다.

음성 생성의 지속 시간 제어를 개선하기 위해 26개의 교차 어텐션 레이어에 PM-RoPE(Progress-Monitoring Rotary Position Embedding)를 적용했다. PM-RoPE는 디코더가 목표 음성 길이에 따른 현재 진행 상황을 추적하도록 돕는 정규화된 신호를 주입한다.

영어, 중국어, 일본어 총 17만 시간의 다국어 음성 데이터를 통해 학습되었으며 일본어 화자 유사도에서 0.677을 기록해 XTTSv2(0.622)를 유의미하게 앞섰다. 한국어는 학습에 포함되지 않았음에도 0.747의 높은 화자 유사도를 보여 강력한 제로샷 음성 복제 능력을 증명했다.

PM-RoPE의 효과를 검증하기 위한 절제 실험에서 해당 기능을 비활성화할 경우 일본어 문자 오류율(CER)이 0.129에서 0.982로 급격히 악화되는 것이 확인됐다. 이는 PM-RoPE가 모델의 안정적인 음성 생성과 길이 제어에 필수적인 요소임을 시사한다.

실무 Takeaway

긴 문장 합성 시 텍스트 정보가 희석되는 문제를 해결하려면 디코더 전용 구조보다 인코더-디코더 아키텍처와 교차 어텐션 활용이 더 효과적이다.
PM-RoPE와 같은 진행률 모니터링 임베딩 기법을 도입하면 자동 회귀 모델의 고질적인 문제인 음성 길이 제어 실패와 생성 중단 오류를 획기적으로 줄일 수 있다.
대규모 다국어 데이터로 학습된 모델은 학습 데이터에 포함되지 않은 언어에 대해서도 높은 수준의 제로샷 화자 유사도를 제공할 수 있는 잠재력을 가진다.

언급된 리소스

논문T5Gemma-TTS Technical Report