핵심 요약
기존 오디오 AI는 이해, 생성, 편집 기능이 개별 모델로 분리되어 있거나 특정 도메인에 국한되는 한계가 있었다. Audio-Omni는 일반적인 소리, 음악, 음성을 모두 아우르는 최초의 통합 엔드투엔드 프레임워크로, 100만 개 이상의 데이터셋을 통해 고품질 오디오 합성과 정밀한 편집 기능을 동시에 제공한다.
왜 중요한가
기존 오디오 AI는 이해, 생성, 편집 기능이 개별 모델로 분리되어 있거나 특정 도메인에 국한되는 한계가 있었다. Audio-Omni는 일반적인 소리, 음악, 음성을 모두 아우르는 최초의 통합 엔드투엔드 프레임워크로, 100만 개 이상의 데이터셋을 통해 고품질 오디오 합성과 정밀한 편집 기능을 동시에 제공한다.
핵심 기여
통합 오디오 프레임워크 Audio-Omni 제안
일반 소리, 음악, 음성 도메인 전체에 걸쳐 오디오 이해, 생성, 편집 기능을 단일 모델 내에서 통합한 최초의 엔드투엔드 시스템이다.
대규모 오디오 편집 데이터셋 AudioEdit 구축
오디오 편집 데이터 부족 문제를 해결하기 위해 실제 데이터 마이닝과 프로그램 방식의 합성을 결합하여 100만 개 이상의 정밀한 편집 쌍을 포함하는 데이터셋을 제작했다.
하이브리드 컨디셔닝 메커니즘 설계
고수준의 의미 정보(Semantic)와 저수준의 신호 정보(Signal)를 분리하여 제어하는 구조를 통해 복잡한 편집 지시와 정밀한 시간적 제어를 동시에 달성했다.
MLLM의 지식 전이를 통한 제로샷 능력 확보
고정된 MLLM을 추론 코어로 사용하여 외부 지식 기반 생성, 인컨텍스트 생성, 제로샷 교차 언어 제어와 같은 창의적인 능력을 상속받았다.
관련 Figure

상단은 고정된 MLLM과 학습 가능한 DiT가 특징 투영기를 통해 연결된 아키텍처를 보여준다. 중앙과 하단은 이해, 생성, 편집의 통합 능력과 지식 기반 추론, 인컨텍스트 생성 등 MLLM으로부터 상속된 고차원 능력을 시각화한다.
Audio-Omni 프레임워크의 전체 구조와 주요 기능을 보여주는 다이어그램이다.
핵심 아이디어 이해하기
기존의 오디오 생성 모델은 텍스트 설명에만 의존하여 세밀한 편집이나 특정 소리의 특징을 유지하는 데 한계가 있었다. Transformer 기반의 Self-Attention은 전역적인 문맥 파악에는 유리하지만, 오디오 파형과 같은 고해상도 신호의 정밀한 시간적 정렬을 처리하기에는 연산 효율과 제어력이 부족한 경우가 많다.
Audio-Omni는 이 문제를 해결하기 위해 '디커플링(Decoupled)' 구조를 채택했다. 고차원적인 상황 판단과 추론은 이미 방대한 지식을 학습한 Multimodal Large Language Model(MLLM)에 맡기고, 실제 오디오 신호의 생성은 Diffusion Transformer(DiT)가 담당하게 한다. MLLM의 내부 레이어에서 추출한 풍부한 임베딩을 DiT의 Cross-Attention 입력으로 사용하여 모델이 '무엇을' 만들어야 할지 명확히 인지하게 한다.
특히 저수준 신호 제어를 위해 참조 오디오의 Mel-spectrogram과 비디오 동기화 특징을 입력 노이즈에 직접 결합(Concatenation)하는 방식을 사용한다. 이는 모델이 생성 과정에서 프레임 단위의 세밀한 가이드를 받게 하여, 기존 모델들이 어려워하던 오디오 스타일 변환이나 특정 악기 소리 추출과 같은 정밀한 편집 작업을 가능하게 만든다.
방법론
Audio-Omni는 고정된 MLLM(Qwen2.5-Omni-3B)과 학습 가능한 DiT 백본으로 구성된 디커플링 아키텍처를 사용한다. MLLM은 텍스트 지시사항, 오디오, 비디오 입력을 처리하여 고수준의 의미 특징(Fmm)을 생성하며, 이는 DiT의 Cross-Attention 메커니즘을 통해 주입된다.
컨디셔닝 시스템은 두 가지 스트림으로 나뉜다. High-Level Semantic 스트림은 MLLM의 펜얼티미트(Penultimate) 레이어 특징과 음성 합성을 위한 Transcript Encoder의 출력을 결합한다. Low-Level Signal 스트림은 참조 오디오의 Mel-spectrogram과 Synchformer를 통한 비디오 동기화 특징을 결합하여 시간적 정렬을 보장한다.
학습은 Rectified Flow 목적 함수를 기반으로 수행된다. VAE로 인코딩된 타겟 오디오의 잠재 벡터 x0와 랜덤 노이즈 x1 사이의 직선 궤적을 모델링한다. 시간 t(0~1)에 따른 보간된 상태 xt = (1-t)x0 + tx1을 입력으로 받아 속도 필드 v = x1 - x0를 예측하도록 학습하며, 손실 함수는 예측값과 실제 속도 사이의 평균 제곱 오차(MSE)를 최소화하는 방향으로 최적화된다.
데이터 구축을 위해 Real Data Branch와 Synthesis Data Branch를 병렬로 운영하는 하이브리드 파이프라인을 설계했다. Gemini를 이용한 카테고리 식별과 SAM-Audio를 이용한 소리 분리, 그리고 Scaper 툴킷을 이용한 자동 합성을 통해 110만 개의 학습 샘플을 확보했다.
관련 Figure

MLLM에서 추출된 MM Features가 High-Level Semantic Features로, 비디오 및 참조 오디오 특징이 Low-Level Signal Features로 구분되어 DiT 백본에 주입되는 과정을 상세히 보여준다. 각 모듈의 학습 가능 여부(Trainable/Non-trainable)가 명시되어 있다.
Audio-Omni의 상세 아키텍처와 컨디셔닝 스트림의 흐름을 나타낸 도식이다.
주요 결과
Audio-Omni는 MMSU 및 MMAU 벤치마크에서 기존 통합 모델들을 능가하는 이해 성능을 보였다. 특히 MMAU에서 63.30점을 기록하며 전용 모델인 Qwen2.5-Omni-3B와 대등한 수준의 추론 능력을 유지함을 입증했다.
오디오 생성 작업(T2A, T2M, V2A, V2M)에서 FAD(Fréchet Audio Distance) 수치가 경쟁 모델 대비 낮게 나타나 높은 음질과 생성 정확도를 확인했다. 예를 들어, Text-to-Music(T2M) 작업에서 FAD 1.41을 기록하여 Unified-IO2(3.17)나 AudioX(1.53)보다 우수한 성능을 보였다.
오디오 편집 성능 평가에서도 평균 FAD 3.27, LSD(Log-Spectral Distance) 2.27을 기록하며 전문 편집 모델인 ZETA나 MMEDIT보다 뛰어난 성능을 보였다. 또한, 영어로만 학습되었음에도 불구하고 MLLM의 능력을 상속받아 중국어, 스페인어 등 다국어 프롬프트에 대응하는 제로샷 교차 언어 생성 능력을 보여주었다.
관련 Figure

프롬프트에 따라 모델이 지미 핸드릭스의 기타 소리를 유추하거나, 주어진 피아노 녹음의 스타일을 따라 새로운 곡을 생성하는 등 모델의 창의적이고 정밀한 제어 능력을 스펙트로그램과 함께 제시한다.
지식 기반 생성, 인컨텍스트 생성, 음성 변환 및 편집의 정성적 결과 예시이다.
기술 상세
Audio-Omni의 핵심은 MLLM의 풍부한 멀티모달 지식을 생성 모델인 DiT에 효과적으로 전이하는 구조에 있다. 연구진은 MLLM의 마지막 레이어보다 펜얼티미트 레이어의 특징이 더 풍부한 의미적, 음향적 세부 정보를 보유하고 있음을 실험적으로 확인하고 이를 컨디셔닝 신호로 채택했다.
DiT 백본은 36개의 블록, 2048의 히든 디멘션, 32개의 어텐션 헤드를 가진 7.9B 파라미터 규모의 트랜스포머 구조이다. 이 중 3.05B 파라미터가 학습 가능하며, Rectified Flow 기법을 통해 기존 확산 모델보다 더 단순하고 효율적인 생성 경로를 학습한다.
음성 편집 및 변환의 강건성을 위해 학습 시 Speech Prompt의 Mel-spectrogram을 20%에서 75%까지 무작위로 마스킹하는 전략을 사용했다. 이를 통해 모델은 부분적인 음향 신호로부터 화자의 고유한 음색(Timbre)을 추론하고 전체 문장을 재구성하는 능력을 갖추게 되었다.
한계점
논문은 음성 변환 및 합성 기능이 딥페이크나 사칭, 허위 정보 유포에 악용될 수 있는 윤리적 위험성을 명시하고 있다. 또한, 고품질 오디오 워터마킹 및 탐지 기술의 병행 개발이 필요함을 언급했다.
실무 활용
Audio-Omni는 영상 제작, 음악 편집, 음성 합성 등 다양한 멀티미디어 산업에서 즉시 활용 가능한 강력한 통합 도구이다. 특히 자연어 지시만으로 정밀한 오디오 편집이 가능하여 전문가 수준의 오디오 작업 문턱을 낮출 수 있다.
- 영상 콘텐츠 제작 시 배경음에서 특정 소음(개 짖는 소리 등)만 제거하거나 다른 소리로 교체
- 텍스트 설명을 기반으로 특정 악기(예: 지미 핸드릭스의 기타 스타일)의 연주곡 생성
- 비디오 신호와 동기화된 효과음 자동 생성 및 정렬
- 다국어 텍스트 프롬프트를 활용한 제로샷 오디오 및 음악 생성
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.