Stable Audio 3 기술 보고서

Stable Audio 3은 텍스트 프롬프트로 길이가 가변인 음향을 빠르게 생성하고, inpainting을 통한 대상 구간 편집 및 continuation을 지원한다. SAME(Semantic-Aligned Music Autoencoder) 기반의 고충실도 잠재 공간과 adversarial post-training으로 추론 단계 수를 줄이면서도 음향 품질과 프롬프트 충실도를 높인다. CPU/소비자급 하드웨어에서도 작동하도록 설계되어 실무 및 개발 환경에서 접근성이 향상된다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

왜 중요한가

핵심 기여

소형/중형 weights의 공개 및 소비자급 하드웨어 동작 보장

소형(small)과 중형(medium)의 weights를 공개하고, CPU inference 및 소비자급 GPU에서의 실행 파이프라인을 제공한다. 이로써 일반 개발자 및 창작자가 고성능 하드웨어 없이도 Stable Audio 3의 기능을 체험하고 활용 가능하다.

텍스트-오디오 생성의 SOTA 성능 근접/향상

instrumental music과 sound effects를 대상으로 텍스트-투-오디오 생성에서 최첨단(SOTA)에 근접하거나 향상된 품질을 달성한다.

초저 latency의 fast inference

H200에서 최대 6m 20s 길이의 오디오를 생성하는 데 2s 미만의 추론 시간을 목표로 하는 성능을 달성한다.

Inpainting 기반의 오디오 편집

단일 구간, 다중 구간 편집 및 continuation을 포함한 inpainting으로 타깃 구간 편집이 가능하다.

가변 길이 음향 생성의 새로운 학습/추론 방식

latent diffusion 모델을 이용한 변수 길이 음향 생성을 구현하는 새로운 방법을 제안하고, 3.1절에서 구체적 기법을 설명한다.

핵심 아이디어 이해하기

출발점과 한계: 전통적 diffusion은 고정 길이 시퀀스에 대해 효율이 떨어지며, 긴 음원을 생성할 때 계산/메모리 비용이 증가한다. 자동인코더를 통해 음향 정보를 4096× downsampling으로 압축하는 SAME은 재구성 fidelity를 유지하면서 diffusion이 다룰 수 있는 semantically structured latent를 만든다. 두 번째 축: Diffusion transformer가 SAME latent에서 작동하며, 텍스트 프롬프트(T5Gemma)와 duration, inpainting masks로 conditioning된다. AdaLN과 QK-RMSNorm 기반의 안정적 주의집중(attention) 기법, memory embeddings를 도입하여 길이에 따른 다중 제약 조건을 처리한다. 세 번째 축: 학습 파이프라인은 flow matching pre-training → distillation warmup → adversarial post-training으로 구성된다. variable-length training은 attention과 손실(masked loss)을 이용해 서로 다른 길이의 시퀀스를 한 배치에서 함께 학습 가능하게 만든다. 이로써 8-step ping-pong 샘플링을 통해 추론 속도와 음질을 균형 있게 달성한다. 네 번째 축: 추론에 CFG를 필요로 하지 않고도 프롬프트 충실도를 유지한다. 변동 가능한 샘플링 간격(logSNR 스케줄)과 ping-pong 샘플링이 결합되어 한 단계의 denoise-then-renoise 루프에서 점차적으로 음향 디테일을 보정한다.

방법론

전체 접근 방식: Stable Audio 3은 SAME latent space에서의 latent diffusion을 기반으로 텍스트-프롬프트와 duration, inpainting 정보를 조건으로 하는 diffusion transformer를 사용한다. 라벨링되지 않은 데이터에 대해서도 variable-length로 학습 가능하도록, attention길이, 손실 마스크, 타임스텝 쉬프를 도입한다. 핵심 메커니즘: 먼저 SAME autoencoder로 waveforms를 256× downsampling된 latent 시퀀스로 매핑한다. diffusion transformer는 이 latent를 입력으로 받아 텍스트 임베딩(T5Gemma), duration 임베딩, t(denoise timestep) 정보를 cross-attention 및 AdaLN으로 주입한다. Inpainting은 local-additive conditioning으로 구현되며, 마스크 벡터와 masked latent를 concat하여 transformer 블록에 전달한다. 학습 전략: Flow Matching을 통해 velocity vθ(xt, t)을 학습하고, 이후 Distillation Warmup으로 xt의 중간 상태에서 xˆ0에 해당하는 한 단계 추정치를 학습한다. Adversarial Post-Training은 x0 공간에서의 상대적 현실성(RLRR, LC, LCLAP)을 이용해 교정하며, 8-step Ping-Pong 샘플링으로 한 단계 생성의 품질과 속도를 확보한다. Variable-Length Training: 배치의 길이가 서로 다를 때, variable-length flash attention으로 패딩을 무시하고 loss를 계산한다. 각 샘플에 길이에 비례한 노이즈 수준 µ를 적용하고, 긴 시퀀스가 노이즈에서 구조를 더 잘 보존하도록 스케일링한다. 또한 긴 시퀀스에서는 소멸되는 boundary artifacts를 줄이기 위해 silence augmentation을 도입한다.

주요 결과

주요 벤치마크: instrumental music(SDD)에서 120s 및 190s 길이로 평가한다. 120s 기준으로 0.293(FAD)·0.158(C LAD)·OVL 3.05±0.94·REL 2.10±1.29·MUS 2.60±1.10·time 3.88 초가 보고된다. ACE-Step 1.5 xl-turbo는 0.193(FAD)·0.321(C LAD)·OVL 3.35±1.09·REL 3.30±1.13·MUS 3.15±1.31·시간 6.23초이다. Stable Audio 2.5의 120s 장치가 0.106(FAD)·0.395(C LAD)·OVL 3.90±0.79·REL 4.30±0.66·MUS 3.70±0.92·0.85초로 나타난다. small-music, medium, large의 120s 성능은 각각 FAD 0.145/0.107/0.101, CLAP 0.393/0.390/0.393, OVL 3.20±0.89/4.20±0.89/3.95±0.89, REL 3.60±0.94/4.25±0.85/3.80±1.11, MUS 3.15±0.81/4.15±0.93/4.30±0.73, 시간 0.45/0.78/0.81초이다. 190s 길이에서는 DiffRhythm 2가 0.307(FAD)·0.088(C LAD)이며 시간은 5.85초, ACE-Step 1.5 xl-turbo가 0.184·0.273·9.21초, Stable Audio 2.5가 0.128·0.375·0.85초, medium이 0.116·0.362·0.88초, large가 0.100·0.373·0.93초다. 음향 효과(sfx) 생성은 5초를 목표로 평가되며, TangoFlux 5s 0.760·0.179·OVL 2.35±1.04·REL 3.25±1.37, Woosh DFlow 5s 0.619·0.228·OVL 3.10±1.25·REL 3.20±1.64, Woosh Flow 5s 0.580·0.277·OVL 3.45±1.19·REL 3.80±1.28, SAO 5s 0.501·0.263·OVL 2.95±1.32·REL 3.30±1.30, SAO-small 5s 0.500·0.277·OVL 3.10±1.12·REL 3.55±1.00, small-sfx 5s 0.395·0.351·OVL 3.35±1.39·REL 3.25±1.45, medium 5s 0.369·0.369·OVL 3.65±1.14·REL 3.95±1.23, large 5s 0.358·0.370·OVL 3.60±0.94·REL 3.85±1.04다. 가변 길이 Instrumental music에서의 성능은 20s~380s 범위에서 평가되며, 120s/190s에서 가장 우수하게 나타나는 경향이 있다. 380s의 경우 CLAP 점수가 하락하는 현상이 나타난다. 편집 및 continuation은 음악/사운드 도메인에서 FAD와 CLAP의 trade-off를 보이며, inpainting의 경우 full FAD보다 inpaint FAD가 더 안정적이다. 어댑터링된 LCLAP를 통한 텍스트-오디오 정합은 지속적으로 향상된다. 베이스 모델 대비 post-trained 모델은 1-step 추론에서 음향 품질이 다소 떨어질 수 있으나, 8-step ping-pong 샘플링에서 더 나은 품질과 속도 균형을 달성한다. VRAM 사용량은 모델 크기에 따라 증가하며, small은 2.5 GB 미만, medium/large는 긴 시퀀스에서 각각 약 6.5 GB/9.0 GB를 필요로 한다. 하드웨어 측면에서 H200에서의 추론 시간은 8 샘플링 스텝으로 다양한 길이에서 수 밀리초 단위의 차이를 보이며, TensorRT 가속을 사용할 경우 대폭 빨라진다.

기술 상세

아키텍처 구성: Stable Audio 3은 semantic-acoustic autoencoder(SAME)와 diffusion transformer로 구성된 이원 구조를 사용한다. SAME은 4096× downsampling 비율로 waveforms를 256-dimensional latents로 압축하고, 다시 256→256×L 차원의 latent 시퀀스로 출력한다. 디퓨전 트랜스포머는 텍스트 임베딩(T5Gemma), duration 임베딩, 인페인팅 마스크를 조건으로 하며, cross-attention과 AdaLN으로 conditioning을 주입한다. inpainting은 local-additive conditioning으로 구현된다. 수학적/알고리즘적 기반: latent 공간에서의 확산은 velocity vθ(xt,t)로 기술되며, xt=(1−t)x0+tϵ의 노이즈 샘플링에서 xt를 다음 상태로 매핑하는 ODE를 풀이한다. Flow matching은 x0과 노이즈 ϵ 간의 관계를 통해 vθ를 학습하고, distillation warmup은 xt에서 단일 스텝으로 xˆ0를 추정하도록 학생 모델을 학습한다. Adversarial post-training은 x0 공간에서의 디스크리미네이터-제너레이터 간의 relativistic 손실 LR, LC, LCLAP를 교차로 학습한다. Variable-length training은 패딩 임베딩을 마스킹하고, 각 샘플의 길이에 따라 timestep t를 µ로 시프트하여 더 긴 시퀀스에 더 많은 노이즈를 할당한다. 이를 통해 긴 시퀀스의 정보 손실을 줄이고 학습 효율을 높인다. Prior work 대비 차별점: SAME 기반의 고해상도 잠재 공간, differential attention( medium/large에서 사용), memory embeddings의 글로벌 컨텍스트 제공, inpainting 기반의 편집(마스크 기반 제어) 및 variable-length 생성의 Native 지원, adversarial post-training으로 적은 샘플링 스텝에서도 고품질의 한 단계 생성 가능성, CFG 의추론 의존성 제거 등이다. 구현/학습 상세: flow matching pre-training, minibatch optimal transport, timestep 샘플링(트렁크 로깅된 분포 사용), discriminator의 조건부 처리와 tD 샘플링, EMA 등 학습 하이퍼파라미터를 사용한다. small/SAME-S는 CPU inference를 위한 압축 변형을 사용하고, medium/large는 SAME-L 기반으로 더 높은 차원의 latent를 사용한다. Inference는 8-샘플링 스텝의 ping-pong 샘플링으로 음원을 생성한다. 학습 데이터는 Licensed AudioSparx 및 Freesound CC 데이터의 혼합으로 구성되며, 알맞은 메타데이터를 프롬프트로 구성한다.

실무 활용

음성/음향 생성 및 편집을 위한 온-디바이스 수요에 부합하는 고성능 Latent Diffusion 모델을 제시한다. variable-length 생성과 inpainting 편집 기능, 그리고 모델 경량화를 통해 실무 적용이 가능하다.

Instrumental music 및 sound effects의 텍스트-프롬프트 기반 생성
단일/다중 구간 편집 및 continuation을 통한 오디오 편집 워크플로우
MacBook Pro 같은 일반 PC에서의 로컬 추론 및 모바일/임베디드 환경에서의 적용

코드 공개 여부: 공개

코드 저장소 보기

키워드

latent-diffusion(잠재 확산 모델)audio-generation(오디오 생성)inpainting(인페인팅)SAME(semantic-aligned music autoencoder)diffusion-transformeradversarial-post-training(적대적 포스트 트레이닝)

Stable Audio 3 기술 보고서

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

왜 중요한가

핵심 기여

소형/중형 weights의 공개 및 소비자급 하드웨어 동작 보장

텍스트-오디오 생성의 SOTA 성능 근접/향상

instrumental music과 sound effects를 대상으로 텍스트-투-오디오 생성에서 최첨단(SOTA)에 근접하거나 향상된 품질을 달성한다.

초저 latency의 fast inference

H200에서 최대 6m 20s 길이의 오디오를 생성하는 데 2s 미만의 추론 시간을 목표로 하는 성능을 달성한다.

Inpainting 기반의 오디오 편집

단일 구간, 다중 구간 편집 및 continuation을 포함한 inpainting으로 타깃 구간 편집이 가능하다.

가변 길이 음향 생성의 새로운 학습/추론 방식

latent diffusion 모델을 이용한 변수 길이 음향 생성을 구현하는 새로운 방법을 제안하고, 3.1절에서 구체적 기법을 설명한다.

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

실무 활용

Instrumental music 및 sound effects의 텍스트-프롬프트 기반 생성
단일/다중 구간 편집 및 continuation을 통한 오디오 편집 워크플로우
MacBook Pro 같은 일반 PC에서의 로컬 추론 및 모바일/임베디드 환경에서의 적용

코드 공개 여부: 공개

코드 저장소 보기

Stable Audio 3 기술 보고서

TL;DR

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

실무 활용

키워드

Stable Audio 3 기술 보고서

TL;DR

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드