핵심 요약
기존에는 인물의 정체성을 유지하며 영상을 생성하거나 편집하는 작업이 각각 별개의 모델로 수행되어 효율성이 낮았다. 이 논문은 하나의 통합된 구조로 여러 인물의 외모와 목소리를 정확하게 제어하며 상업용 모델을 뛰어넘는 품질을 달성했다.
왜 중요한가
기존에는 인물의 정체성을 유지하며 영상을 생성하거나 편집하는 작업이 각각 별개의 모델로 수행되어 효율성이 낮았다. 이 논문은 하나의 통합된 구조로 여러 인물의 외모와 목소리를 정확하게 제어하며 상업용 모델을 뛰어넘는 품질을 달성했다.
핵심 기여
Symmetric Conditional Diffusion Transformer 설계
참조 이미지, 목소리 음색, 소스 비디오 등 서로 다른 성격의 제어 신호를 통합된 잠재 공간에서 처리할 수 있는 대칭형 구조를 도입했다.
Dual-Level Disentanglement 전략 도입
신호 수준의 Syn-RoPE와 의미 수준의 Structured Captions를 통해 다인원 시나리오에서 발생하는 인물-목소리 결합 오류와 화자 혼동 문제를 해결했다.
Multi-Task Progressive Training 체계 구축
약한 제약의 생성 작업에서 강한 제약의 편집 작업으로 이어지는 3단계 점진적 학습을 통해 모델의 일반화 성능과 정밀한 제어 능력을 동시에 확보했다.
핵심 아이디어 이해하기
기존의 영상 생성 모델은 텍스트 프롬프트만으로는 특정 인물의 외모나 목소리 톤을 일관되게 유지하기 어렵다. 특히 여러 명이 등장하는 장면에서는 누구의 목소리인지 혼동되는 Speaker Confusion 문제가 빈번하게 발생한다. 이는 모델 내부의 Attention Mechanism이 시각적 특징과 청각적 특징을 개별 인물에게 정확히 할당하지 못하기 때문이다.
DreamID-Omni는 이를 해결하기 위해 인물의 이미지와 목소리 샘플을 고정된 닻(Anchor)으로 사용하는 Symmetric Conditional DiT를 도입했다. 영상과 오디오 스트림이 서로 정보를 주고받는 구조 내에서, 참조 데이터를 생성 과정의 핵심 가이드로 활용하여 정체성을 유지한다.
또한 Syn-RoPE라는 기법을 통해 특정 인물의 시각적 특징과 청각적 특징을 동일한 위치 정보(Positional Embedding) 영역에 묶어버린다. 이를 통해 모델은 특정 얼굴이 화면에 나타날 때 반드시 그에 대응하는 목소리가 출력되도록 강제하며, 복잡한 다인원 시나리오에서도 정교한 인물별 제어를 가능하게 한다.
방법론
전체 아키텍처는 Dual-stream DiT 구조를 기반으로 하며, 비디오 합성을 위한 시각 스트림과 오디오 합성을 위한 음향 스트림이 병렬로 존재한다. 두 스트림은 Bidirectional Cross-Attention 레이어를 통해 상호작용하며 미세한 시간적 동기화와 의미적 정렬을 수행한다.
Symmetric Conditional Injection 기법은 참조 이미지와 목소리 특징을 노이즈 잠재값에 연결(Concatenation)하고, 소스 비디오나 드라이빙 오디오 같은 구조적 조건은 요소별 덧셈(Element-wise addition)으로 주입한다. [참조 특징 벡터 → VAE 인코딩 → 노이즈 잠재값과 결합 → DiT 블록 연산 → 정체성이 보존된 생성물] 과정을 거쳐 작업 전환 시 아키텍처 변경 없이 유연하게 대응한다.
Dual-Level Disentanglement는 신호와 의미 두 층위에서 작동한다. 신호 수준의 Syn-RoPE는 오디오와 비디오의 시퀀스 길이 차이를 고려하여 주파수를 스케일링하고, 인물별로 비중첩 시간 구간을 할당하여 특징이 섞이는 것을 방지한다. 의미 수준에서는 MLLM을 활용해 생성한 Structured Captions를 통해 각 인물(sub1, sub2 등)과 그들의 속성 및 대사 내용을 명시적으로 매핑한다.
학습은 3단계 점진적 전략을 따른다. 1단계(In-pair Reconstruction)는 동일 샘플 내 재구성으로 기본 생성 능력을 익히고, 2단계(Cross-pair Disentanglement)는 서로 다른 샘플 간의 정체성 결합을 학습하며, 3단계(Omni-Task Fine-tuning)에서 생성·편집·애니메이션 작업을 혼합하여 최종 최적화한다.
주요 결과
R2AV(참조 기반 생성) 벤치마크에서 ViCLIP 13.911, ID-Sim 0.674/0.603을 기록하며 Wan2.6 등 폐쇄형 상업 모델을 능가하는 성능을 보였다. 특히 다인원 시나리오에서의 정체성 유지 능력이 탁월했다.
RV2AV(비디오 편집) 및 RA2V(오디오 기반 애니메이션) 작업에서도 VACE, Humo 등 기존 특화 모델들보다 높은 정교함과 오디오-비디오 일치성을 입증했다. AES(미적 점수)와 Sync-C(입술 동기화) 지표 모두에서 SOTA를 달성했다.
Ablation Study 결과, Syn-RoPE와 Structured Captions가 없을 경우 화자 혼동(Speaker Confusion) 비율이 0.08에서 0.26으로 3배 이상 증가하여 제안된 기법의 유효성을 확인했다.
기술 상세
Symmetric Conditional DiT는 참조 특징(Ev(I), Ea(A))을 노이즈 잠재값에 연결하고, 구조적 조건(Vsrc, Adri)을 요소별 덧셈으로 주입하여 정체성 보존 채널과 구조 가이드 채널을 분리한다. 이는 모델이 참조 정보에 과하게 의존하여 구조적 변화를 무시하는 현상을 방지한다.
Syn-RoPE는 오디오와 비디오의 시퀀스 길이 차이를 고려하여 오디오 주파수를 γ = Lv/La 비율로 스케일링한다. 각 인물 슬롯에 대해 고정된 마진 M을 둔 비중첩 시간 구간을 할당함으로써, 주기적인 RoPE의 특성을 이용해 각 인물의 특징을 독립적인 회전 서브스페이스로 투영한다.
Structured Captions는 MLLM을 사용하여 앵커 토큰을 포함한 정교한 스크립트를 생성한다. 이는 비디오 캡션, 오디오 캡션, 공동 캡션으로 나뉘어 모델이 의미론적으로 인물과 속성을 정확히 매핑하도록 돕는다.
Multi-Task Progressive Training은 약하게 제약된 R2AV 작업에서 강력한 생성 프라이어를 먼저 학습한 후, 강하게 제약된 편집 및 애니메이션 작업으로 전이함으로써 과적합을 방지하고 일반화 성능을 높인다. 최종 단계에서는 R2AV, RV2AV, RA2V 데이터를 4:3:3 비율로 샘플링하여 학습한다.
실무 활용
고품질의 인물 중심 영상 콘텐츠 제작 및 편집 도구로 즉시 활용 가능하며, 특히 다인원이 등장하는 복잡한 장면 제어에 강점이 있다.
- 특정 배우의 외모와 목소리를 유지한 가상 광고 및 영화 예고편 제작
- 기존 영상의 인물을 다른 인물로 교체하거나 목소리를 변경하는 고정밀 영상 편집
- 사진 한 장과 음성 파일만으로 자연스러운 입 모양과 표정을 가진 말하는 아바타 생성
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.