핵심 요약
파운데이션 모델(Foundation Models)의 최근 발전은 오디오-비디오 통합 생성을 혁신했습니다. 그러나 기존 방식은 참조 기반 오디오-비디오 생성(R2AV), 비디오 편집(RV2AV), 오디오 기반 비디오 애니메이션(RA2V)과 같은 인간 중심 작업들을 개별적인 목표로 취급하는 경향이 있습니다. 또한, 단일 프레임워크 내에서 여러 캐릭터의 정체성(Identity)과 목소리 음색(Voice Timbre)에 대해 정밀하고 분리된 제어를 달성하는 것은 여전히 어려운 과제입니다. 본 논문에서는 제어 가능한 인간 중심 오디오-비디오 생성을 위한 통합 프레임워크인 DreamID-Omni를 제안합니다. 구체적으로, 대칭적 조건부 주입(Symmetric Conditional Injection) 방식을 통해 이질적인 조건 신호를 통합하는 대칭적 조건부 확산 트랜스포머(Symmetric Conditional Diffusion Transformer)를 설계했습니다. 다인원 시나리오에서 빈번하게 발생하는 정체성-음색 결합 오류와 화자 혼동 문제를 해결하기 위해 이중 수준 얽힘 해제(Dual-Level Disentanglement) 전략을 도입했습니다. 신호 수준에서는 엄격한 어텐션 공간 결합을 보장하기 위해 동기화된 RoPE(Synchronized RoPE)를 사용하고, 의미 수준에서는 명시적인 속성-대상 매핑을 구축하기 위해 구조화된 캡션(Structured Captions)을 활용합니다. 나아가, 약하게 제약된 생성 사전 지식(Generative Priors)을 활용하여 강하게 제약된 작업을 정규화함으로써 과적합을 방지하고 서로 다른 목표를 조화시키는 다중 작업 점진적 학습(Multi-Task Progressive Training) 체계를 고안했습니다. 광범위한 실험을 통해 DreamID-Omni가 비디오, 오디오 및 오디오-비디오 일관성 측면에서 포괄적인 최첨단(SOTA) 성능을 달성했으며, 심지어 주요 상용 모델보다 뛰어난 성능을 보임을 입증했습니다.
핵심 기여
통합 인간 중심 생성 프레임워크 구축
참조 기반 생성, 비디오 편집, 오디오 기반 애니메이션 등 서로 다른 인간 중심 생성 작업을 단일 프레임워크 내에서 통합하여 수행할 수 있는 DreamID-Omni를 제안했다.
대칭적 조건부 확산 트랜스포머(SCDT) 설계
대칭적 조건부 주입 방식을 도입하여 다양한 형태의 조건 신호를 효율적으로 통합하고 제어력을 높인 새로운 트랜스포머 구조를 개발했다.
이중 수준 얽힘 해제 전략 도입
동기화된 RoPE와 구조화된 캡션을 통해 다중 인물 환경에서 정체성과 음색이 뒤섞이는 문제를 해결하고 개별 속성을 정밀하게 제어한다.
다중 작업 점진적 학습 체계 제안
생성적 사전 지식을 활용해 복잡한 제어 작업을 정규화함으로써 모델의 일반화 성능을 높이고 과적합을 방지하는 학습 방법론을 제시했다.
방법론
대칭적 조건부 확산 트랜스포머(SCDT)를 기반으로 이질적인 신호를 통합하며, 신호 수준의 동기화된 RoPE(Synchronized RoPE)와 의미 수준의 구조화된 캡션(Structured Captions)을 결합한 이중 수준 얽힘 해제 전략을 사용한다. 또한 다중 작업 점진적 학습(Multi-Task Progressive Training)을 통해 다양한 생성 작업을 통합적으로 최적화한다.
주요 결과
DreamID-Omni는 비디오 품질, 오디오 품질 및 오디오-비디오 일관성 지표에서 기존 최첨단(SOTA) 모델들을 능가하는 성능을 기록했다. 특히 다중 인물 시나리오에서 상용 모델보다 뛰어난 정체성 보존 및 음색 분리 능력을 보여주었다.
시사점
영화 제작, 가상 아바타, 비디오 편집 등 고도의 정밀도가 요구되는 인간 중심 콘텐츠 생성 분야에서 실질적인 도구로 활용될 수 있다. 특히 다중 인물의 목소리와 외양을 독립적으로 제어해야 하는 복잡한 시나리오의 구현 가능성을 열어주었다.
키워드
섹션별 상세
통합 인간 중심 생성 프레임워크 구축
대칭적 조건부 확산 트랜스포머(SCDT) 설계
이중 수준 얽힘 해제 전략 도입
다중 작업 점진적 학습 체계 제안
AI 요약 · 북마크 · 개인 피드 설정 — 무료