핵심 요약
기존의 복잡한 음성 합성 파이프라인 대신 언어 모델과 유사한 단일 아키텍처를 채택하여 확장성을 극대화했다. 수백만 시간의 대규모 데이터를 통해 별도의 추가 학습 없이도 처음 듣는 목소리를 즉시 복제하거나 문장 내 특정 단어의 발음과 길이를 정밀하게 제어할 수 있다.
왜 중요한가
기존의 복잡한 음성 합성 파이프라인 대신 언어 모델과 유사한 단일 아키텍처를 채택하여 확장성을 극대화했다. 수백만 시간의 대규모 데이터를 통해 별도의 추가 학습 없이도 처음 듣는 목소리를 즉시 복제하거나 문장 내 특정 단어의 발음과 길이를 정밀하게 제어할 수 있다.
핵심 기여
MOSS-Audio-Tokenizer 통합
24kHz 오디오를 12.5fps로 압축하면서도 의미론적 정보와 음향적 세부 사항을 동시에 보존하는 순수 Transformer 기반 토크나이저를 구축했다.
대규모 고품질 데이터 파이프라인
수백만 시간의 원시 오디오를 화자 일관성, 언어 일관성, 전사 정확도 기준으로 필터링하여 학습에 적합한 데이터셋으로 변환하는 체계를 제안했다.
두 가지 상호 보완적 아키텍처 출시
구조적 단순성과 확장성에 최적화된 Delay-Pattern 방식과 모델링 효율 및 화자 보존 능력이 뛰어난 Local-Transformer 방식을 비교 분석했다.
정밀한 제어 기능 구현
토큰 단위의 지속 시간 제어, 음소/병음 수준의 발음 교정, 자연스러운 코드 스위칭(중국어-영어 혼용) 기능을 지원한다.
핵심 아이디어 이해하기
기존 음성 합성은 텍스트 분석, 음향 모델, 보코더 등 여러 단계가 얽혀 있어 확장이 어려웠다. MOSS-TTS는 오디오를 이산적인 토큰으로 변환하여 마치 문장을 생성하듯 음성을 생성하는 Autoregressive 방식을 채택했다.
핵심은 MOSS-Audio-Tokenizer다. 이는 24kHz의 연속적인 파형을 초당 12.5개의 토큰 시퀀스로 압축한다. 이때 RVQ(Residual Vector Quantization)를 사용하여 정보의 중요도에 따라 여러 계층으로 나누어 저장함으로써 효율성을 높였다.
학습 과정에서는 수백만 시간의 데이터를 사용해 텍스트 토큰과 오디오 토큰 사이의 상관관계를 학습한다. 이를 통해 모델은 문맥에 맞는 억양과 화자의 고유한 음색을 별도의 가이드 없이도 스스로 파악하여 생성할 수 있게 된다.
방법론
MOSS-Audio-Tokenizer는 64개의 causal Transformer 블록으로 구성된 인코더와 디코더를 사용한다. 24kHz 입력 신호 x에 대해 인코더 E를 거쳐 잠재 표현 z를 얻고, 이를 32개 계층의 RVQ로 양자화한다. 각 계층은 1024 크기의 코드북을 가지며, 최종적으로 0.125~4 kbps의 가변 비트레이트를 지원한다.
생성 모델은 두 가지 패턴을 지원한다. Delay-Pattern은 RVQ의 각 계층 토큰을 시간축으로 1프레임씩 밀어서 입력하는 방식이다. 입력 토큰 행렬 A의 j번째 계층을 j-1 프레임만큼 앞으로 밀어내는 연산을 수행한다. 이를 통해 서로 다른 계층의 토큰들이 시간축상에서 정렬되어 단일 Transformer 모델이 여러 계층의 정보를 동시에 참조할 수 있게 되며, 이는 모델이 음성의 세부 특징을 단계적으로 예측하는 기반이 된다.
Local-Transformer는 백본 LLM이 각 단계마다 하나의 글로벌 잠재 벡터를 생성하고, 이를 가벼운 내부 Autoregressive 모듈이 32개의 세부 오디오 토큰으로 확장하는 계층적 구조를 가진다. 백본 LLM에서 나온 잠재 벡터 x를 입력으로 받아 내부의 작은 Transformer가 32개의 RVQ 토큰을 순차적으로 예측한다. 이전 단계의 예측값이 다음 단계의 입력으로 들어가는 반복 과정을 거쳐 하나의 프레임에 대한 모든 세부 정보를 완성하며, 이는 화자의 미세한 음색 특징을 더 정확하게 복원하는 역할을 한다.
데이터 파이프라인은 3단계로 구성된다. 1단계 전처리(노이즈 제거, 화자 분리), 2단계 필터링(ASR 전사, LLM 기반 품질 검사), 3단계 데이터 합성(음색 복제용 쌍 구축, 발음 기호 주입)을 통해 대규모 고품질 코퍼스를 확보한다.
주요 결과
Seed-TTS-eval 벤치마크에서 MOSS-TTS-Local-Transformer(1.7B)는 영어 WER 1.87%, 화자 유사도(SIM) 71.74를 기록했다. 이는 파라미터 수가 훨씬 많은 8B 모델인 MOSS-TTS(SIM 69.31)보다 뛰어난 화자 보존 능력을 보여준다.
다국어 성능 평가(CV3-Eval)에서 중국어, 영어뿐만 아니라 일본어, 한국어, 독일어 등 9개 언어에 대해 안정적인 제로샷 복제 성능을 입증했다. 특히 한국어의 경우 7.20~7.73% 수준의 낮은 오류율을 보였다.
지속 시간 제어 실험에서 목표 시간 대비 오차율(AbsErr Mean) 0.7% 미만을 달성했다. 또한 1시간 이상의 초장문 생성 시에도 화자의 음색이 급격히 변하지 않고 안정적으로 유지됨을 확인했다.
실무 활용
고성능 오디오 토크나이저와 음성 생성 모델을 모두 공개하여 실무에서 즉시 활용 가능하다. 특히 제로샷 복제와 정밀 발음 제어가 필요한 서비스에 적합하다.
- 개인화된 AI 보이스 에이전트 구축
- 교육용 콘텐츠의 다국어 더빙 및 발음 교정
- 장편 오디오북 자동 생성
- 실시간 스트리밍 서비스의 저지연 음성 합성
기술 상세
MOSS-TTS는 32계층의 RVQ 토크나이저를 기반으로 하며, 토크나이저는 약 1.6B 파라미터, 생성 모델은 1.7B 및 8B 규모로 구성된다. 학습에는 WSD(Warmup-Stable-Decay) 스케줄을 적용하여 초기에는 정렬 학습에 집중하고 후반부에 제어 능력을 강화하는 4단계 커리큘럼을 사용했다. 데이터 필터링 시 DNSMOS 2.8 이상, AudioBox PQ 6.5 이상의 엄격한 기준을 적용하여 음질을 확보했다.
한계점
영어와 중국어 이외의 저자원 언어에서는 성능이 다소 저하될 수 있으며, 1시간 이상의 초장문 생성 시 아주 미세한 화자 드리프트(Speaker Drift) 현상이 관찰될 수 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료