Fish Audio S2 기술 보고서

왜 중요한가

기존 TTS는 감정이나 호흡 같은 미세한 표현을 제어하기 위해 복잡한 파라미터가 필요했으나, 이 모델은 [laugh]와 같은 자연어 지시만으로 이를 가능하게 한다. 또한 추론 엔진 최적화를 통해 실제 서비스에 즉시 적용 가능한 수준의 압도적인 속도와 효율성을 확보했다.

핵심 기여

Dual-AR 아키텍처 도입

시간적 의미 모델링(Slow AR)과 깊이 방향의 음향 생성(Fast AR)을 분리하여 긴 문맥 처리 시 발생하는 연산 부담을 획기적으로 줄였다.

다목적 데이터 파이프라인 구축

학습 데이터 필터링에 사용한 품질 평가 모델을 강화학습의 보상 모델로 재사용하여 데이터 분포 불일치 문제를 해결하고 자동화된 데이터 주석 처리를 구현했다.

자연어 기반 세밀한 음향 제어

별도의 제어 토큰 없이 텍스트 내에 삽입된 자연어 태그만으로 웃음, 속삭임, 강조 등 정교한 음성 이벤트를 제어하는 능력을 확보했다.

SGLang 기반 추론 최적화

RadixCache와 MPS 스케줄링을 통해 NVIDIA H200 기준 RTF 0.195 및 TTFA 100ms 미만의 고성능 추론 성능을 달성했다.

핵심 아이디어 이해하기

기존 TTS는 고품질 오디오를 위해 수많은 오디오 토큰을 생성해야 하는데, 이는 시퀀스 길이를 폭증시켜 Transformer의 연산량을 기하급수적으로 늘린다. 특히 긴 문장이나 다자간 대화에서 문맥을 유지하며 미세한 감정 표현을 제어하는 데 한계가 있었다. Fish Audio S2는 이를 해결하기 위해 Dual-AR 구조를 도입했다. 4B 파라미터 규모의 Slow AR이 전체적인 언어 흐름과 핵심 의미 토큰을 먼저 결정하면, 가벼운 Fast AR이 이를 바탕으로 세부적인 오디오 디테일을 채워 넣는 방식이다. 여기에 자연어 지시(Instruction Following) 기능을 결합하여 사용자가 텍스트 사이에 직접 감정이나 효과를 적어 넣으면 모델이 이를 이해하고 반영한다. 이는 복잡한 제어 파라미터 없이도 인간과 유사한 표현력을 구현하게 하며, 추론 엔진 최적화를 통해 실시간 대화가 가능한 수준의 속도를 보장한다.

방법론

Audio Tokenizer는 Descript Audio Codec(DAC)을 기반으로 하며 10개의 코드북을 사용하는 RVQ 전략을 채택한다. 첫 번째 코드북은 의미 정보를, 나머지 9개는 세부 음향 정보를 담당하며 EVA-GAN 디코더를 통해 고품질 파형을 복원한다. Dual-AR 구조는 Qwen3-4B를 백본으로 하는 Slow AR과 4개 레이어의 Fast AR로 구성된다. Slow AR이 생성한 의미 토큰 q_t(0)와 히든 스테이트 h_t^slow를 입력으로 받아 Fast AR이 나머지 9개 코드북 토큰을 깊이 방향으로 자동 회귀 생성한다.

각 코드북 토큰 q_t^(k)를 전용 임베딩 레이어 E^(k)를 통해 벡터로 변환하고, 이를 Slow AR의 토큰 임베딩 e_t^LM과 모두 합산하여 다음 시점의 입력 벡터 x_{t+1}을 생성한다. 이는 여러 층의 음향 정보를 하나의 연속적인 벡터 공간으로 통합하여 모델이 다음 의미 토큰을 예측할 때 풍부한 음향 문맥을 참조할 수 있게 한다.

데이터 파이프라인은 음성 분리, 품질 필터링, 풍부한 전사(Rich Transcription)의 3단계로 운영된다. 전사 단계에서 Qwen3-Omni 모델을 활용해 화자 전환과 [laugh], [angry] 등의 음성 이벤트를 텍스트에 직접 주입하여 학습 데이터를 구축한다. 사후 학습에는 GRPO 변형 알고리즘을 사용한다. 별도의 가치 모델 없이 그룹 통계로 어드밴티지를 추정하며 의미 정확도, 음향 품질, 화자 유사도의 세 가지 차원에서 보상을 계산하여 최적화한다.

주요 결과

Seed-TTS 벤치마크에서 test-zh 기준 WER 0.54%, test-en 기준 0.99%를 기록하며 기존 SOTA 모델들을 능가했다. 다국어 평가인 CV3-Eval에서도 9개 언어 평균 에러율을 기존 모델 대비 23.9% 감소시켰다. EmergentTTS-Eval에서는 81.88%의 승률을 기록하며 지시 이행 능력을 입증했다. 특히 파라링구스틱(91.61%)과 질문 처리(84.41%) 영역에서 압도적인 성능을 보였다. 추론 성능 측면에서 NVIDIA H200 GPU 기준 RTF 0.195를 달성했으며 첫 오디오 출력까지 걸리는 시간(TTFA)은 100ms 미만으로 실시간 스트리밍 서비스에 적합한 수준임을 확인했다.

실무 활용

고성능 추론 엔진과 함께 모델 가중치가 공개되어 즉시 상용 서비스에 적용 가능하다. 자연어 기반 제어가 가능하므로 전문적인 오디오 편집 지식 없이도 고품질 콘텐츠 제작이 가능하다.

오디오북 및 팟캐스트 자동 생성
다국어 비디오 더빙 및 로컬라이제이션
감정 표현이 풍부한 AI 고객 상담 에이전트
개인화된 가상 아바타 음성 구현

기술 상세

아키텍처는 시간축 모델링(Slow AR)과 코드북 깊이축 모델링(Fast AR)을 분리한 비대칭 구조다. Slow AR은 4B 파라미터 규모로 문맥을 파악하고, Fast AR은 경량 Transformer로 효율적인 토큰 확장을 수행한다. Audio Tokenizer는 Causal Convolution과 Transformer Bottleneck을 도입하여 스트리밍에 최적화되었다. 44.1kHz 샘플링 레이트에서 2048배 다운샘플링을 통해 약 21Hz의 컴팩트한 프레임 레이트를 유지한다.

RL 정렬 시 Dr.GRPO를 활용하여 샘플별 난이도 편향을 제거했다. VRAM 절약을 위해 LoRA weight-swap 메커니즘을 설계하여 참조 모델을 CPU 메모리에 두고 필요할 때만 동적으로 교체한다. 추론 엔진은 SGLang의 RadixCache를 확장하여 의미 토큰과 음향 토큰을 동시에 인덱싱한다. 이를 통해 참조 오디오 재사용 시 KV 캐시 히트율을 86.4%까지 높여 프리필 오버헤드를 최소화했다.

한계점

데이터 다양성 부족, 불균형한 음성 태그 분포, 초기 단계의 인간-모델 평가 정렬 분석 등이 한계로 명시되었다.

키워드

TTS(텍스트 음성 변환)Dual-AR(이중 자동 회귀)GRPO(그룹 상대 정책 최적화)Instruction Following(지시 이행)SGLang(추론 엔진)