핵심 요약
기존 비디오 생성 모델은 텍스트나 이미지 등 단일 조건에는 강하지만, 오디오와 신체 동작이 결합된 복잡한 인간-객체 상호작용을 제어하는 데 한계가 있었다. 이 논문은 네 가지 서로 다른 입력을 동시에 수용하는 통합 프레임워크를 통해 이커머스 시연이나 가상 아바타 제작의 정밀도를 산업 수준으로 끌어올렸다.
왜 중요한가
기존 비디오 생성 모델은 텍스트나 이미지 등 단일 조건에는 강하지만, 오디오와 신체 동작이 결합된 복잡한 인간-객체 상호작용을 제어하는 데 한계가 있었다. 이 논문은 네 가지 서로 다른 입력을 동시에 수용하는 통합 프레임워크를 통해 이커머스 시연이나 가상 아바타 제작의 정밀도를 산업 수준으로 끌어올렸다.
관련 Figure

텍스트, 이미지, 오디오, 포즈를 조합하여 비디오를 생성하는 네 가지 주요 작업(R2V, RP2V, RA2V, RAP2V)과 아바타 생성, 객체 교체 등 확장 응용 분야를 보여준다. 모델이 다양한 입력 조건의 조합을 얼마나 유연하게 처리할 수 있는지 시각적으로 증명한다.
OmniShow의 통합 작업 및 응용 사례 개요도
핵심 기여
OmniShow 통합 프레임워크
텍스트, 참조 이미지, 오디오, 포즈 시퀀스라는 네 가지 이종 조건을 동시에 수용하여 고품질의 인간-객체 상호작용 비디오를 생성하는 엔드투엔드 시스템을 구축했다.
Unified Channel-wise Conditioning
기존 생성 모델의 사전 학습된 지식을 보존하면서도 참조 이미지와 포즈 정보를 효율적으로 주입하기 위해 채널 결합 방식의 조건 부여 기법을 도입했다.
Gated Local-Context Attention
오디오 신호와 비디오 프레임 간의 정밀한 동기화를 위해 마스킹된 어텐션 메커니즘과 학습 가능한 게이팅 벡터를 결합하여 시각-청각 일치성을 강화했다.
Decoupled-Then-Joint Training 전략
데이터 부족 문제를 해결하기 위해 개별 모달리티별로 모델을 먼저 학습시킨 후 가중치 병합(Model Merging)을 통해 통합 모델로 발전시키는 다단계 학습 전략을 제어했다.
HOIVG-Bench 벤치마크 수립
인간-객체 상호작용 비디오 생성을 체계적으로 평가하기 위해 135개의 정교한 샘플과 전용 지표를 포함한 새로운 평가 기준을 마련했다.
핵심 아이디어 이해하기
기존의 비디오 생성 모델은 주로 텍스트 프롬프트를 입력받아 이미지를 생성하는 Diffusion 모델의 구조를 따르며, 여기에 추가적인 조건을 넣을 때 모델이 원래 가진 생성 능력이 훼손되는 문제가 있었다. 특히 인간이 물건을 다루는 장면은 손의 위치(포즈), 물건의 외형(이미지), 말소리(오디오)가 모두 정교하게 맞물려야 하므로 단순한 조건 추가만으로는 자연스러운 결과를 얻기 어렵다.
OmniShow는 이를 해결하기 위해 모델 내부의 토큰 구조를 확장하는 방식을 선택했다. 비디오 프레임 토큰 옆에 '의사 프레임(Pseudo-frame)' 토큰을 추가로 배치하고, 여기에 참조 이미지 정보를 채널 방향으로 결합(Concatenation)하여 주입한다. 이는 모델이 원래 학습했던 데이터 분포를 크게 바꾸지 않으면서도 새로운 정보를 자연스럽게 받아들이게 하는 앵커 역할을 한다.
또한, 오디오와 동작의 일치성을 위해 Self-Attention 과정에서 특정 시간대의 비디오 토큰이 그에 대응하는 오디오 구간에만 집중하도록 제약하는 Masked Attention을 적용했다. 이를 통해 입모양이나 손동작이 소리와 어긋나는 현상을 방지하며, 학습 가능한 게이트를 통해 오디오 정보가 모델에 미치는 영향력을 단계적으로 조절하여 학습의 안정성을 확보했다.
방법론
전체 시스템은 12B 파라미터 규모의 MMDiT 기반 모델인 Waver 1.0을 기반으로 구축됐다. 핵심은 Unified Channel-wise Conditioning으로, 노이즈가 섞인 비디오 토큰 x_t에 의사 프레임 토큰 x'를 시간축을 따라 추가한다. [x' || x_t]와 같이 결합된 입력에 참조 이미지 토큰 r과 포즈 토큰 p를 채널 방향으로 결합하여 모델에 입력한다. 이때 Reference Reconstruction Loss를 적용하여 의사 프레임이 참조 이미지의 세부 사항을 정확히 복원하도록 강제함으로써 시각적 일관성을 유지한다.
Gated Local-Context Attention은 오디오 동기화를 담당한다. Wav2Vec 2.0으로 추출한 오디오 특징을 슬라이딩 윈도우 방식으로 묶어 시간적 맥락을 강화한 뒤, 비디오 토큰과의 Cross-Attention을 수행한다. 이때 이진 마스크 행렬 M을 사용하여 각 프레임이 관련 오디오 세그먼트에만 Attend하도록 제한한다. [Q*K^T / sqrt(d_k) + log M] 연산을 통해 마스킹된 Softmax 확률을 계산하고, 이를 통해 불필요한 오디오 간섭을 제거하여 정밀한 싱크를 맞춘다.
학습 전략인 Decoupled-Then-Joint Training은 세 단계로 나뉜다. 먼저 오디오-비디오(A2V)와 참조 이미지-비디오(R2V) 전용 모델을 각각 독립적으로 학습시킨다. 이후 두 모델의 가중치를 선형 보간(Linear Interpolation) 방식으로 병합하여 초기 통합 모델을 만든다. 마지막으로 전체 데이터셋을 활용한 공동 학습(Joint Training)을 진행하며, 포즈 조건은 과적합 방지를 위해 최종 미세 조정 단계에서만 도입하여 모달리티 간의 조화를 완성한다.
관련 Figure

채널 결합 방식의 조건 주입(a), 게이트 기반 로컬 컨텍스트 어텐션(b), 그리고 분리 후 통합 학습 전략(c)을 상세히 설명한다. 각 모듈이 MMDiT 블록 내에서 어떻게 배치되고 데이터가 흐르는지 구조적으로 나타낸다.
OmniShow 프레임워크의 전체 파이프라인 구조도
주요 결과
HOIVG-Bench에서의 실험 결과, OmniShow는 기존 SOTA 모델들을 상회하는 성능을 기록했다. 텍스트-참조 이미지-비디오(R2V) 설정에서 참조 일관성을 측정하는 FaceSim 0.874, NexusScore 0.389를 달성하여 전문 모델인 Phantom-14B와 대등하거나 우수한 성능을 보였다. 특히 오디오가 포함된 RA2V 설정에서는 Sync-C 8.612를 기록하며 기존 모델들(HuMo-17B 등)보다 정밀한 오디오-비디오 동기화 능력을 입증했다.
포즈 제어가 포함된 RP2V 설정에서도 포즈 정확도(AKD 0.174)와 비디오 품질(VQ 10.28) 면에서 AnchorCrafter나 VACE보다 뛰어난 수치를 나타냈다. Ablation Study를 통해 Unified Channel-wise Conditioning이 단순 토큰 결합 방식보다 시각적 보존력이 높음이 확인됐으며, Gated Local-Context Attention이 없을 경우 동기화 점수가 급격히 하락하는 것을 통해 각 모듈의 유효성을 검증했다.
관련 Figure

단순 토큰 결합 방식보다 OmniShow의 제안 방식이 참조 대상의 외형(NexusScore)을 더 정확하게 보존함을 정성적, 정량적으로 보여준다. 특히 손에 든 제품의 텍스트와 디자인 유지 능력이 뛰어남을 확인할 수 있다.
기존 토큰 결합 방식과 OmniShow의 조건 부여 방식 비교 결과
기술 상세
OmniShow의 아키텍처는 12B MMDiT(Multimodal Diffusion Transformer)를 기반으로 하며, Flow Matching 목적 함수를 사용하여 학습된다. 핵심 기술 차별점은 '최소한의 개입(Minimalist Intervention)' 원칙이다. 기존 연구들이 대규모 어댑터를 추가하여 파라미터를 20% 이상 증가시킨 것과 달리, OmniShow는 게이팅 메커니즘 분석을 통해 오디오 어텐션을 Dual-stream 블록에만 선택적으로 삽입하여 파라미터 증가량을 약 2.5%로 억제하면서도 높은 제어력을 확보했다.
구현 측면에서는 128개의 80GB GPU 클러스터에서 FSDP(Fully Sharded Data Parallel)와 Ulysses 시퀀스 병렬 처리를 사용하여 대규모 학습을 수행했다. 데이터 파이프라인에서는 3,500시간 분량의 고품질 인간 중심 비디오 데이터를 구축했으며, 이를 위해 샷 분할, 다차원 필터링, AI 기반 객체/인물 이미지 생성 등 정교한 전처리 과정을 거쳤다. 특히 모델 병합 단계에서 A2V와 R2V 모델의 가중치를 0.6:0.4 비율로 섞는 것이 시각적 정체성과 오디오 동기화 사이의 최적의 균형점임을 실험적으로 찾아냈다.
관련 Figure

Dual-stream 블록에서 오디오 정보의 영향력이 학습이 진행됨에 따라 점진적으로 증가함을 보여준다. 이는 게이팅 메커니즘이 초기 학습 안정성을 확보하고 오디오 신호를 효과적으로 통합하고 있음을 수치로 증명한다.
학습 단계에 따른 게이팅 벡터 g의 평균 노름 변화 그래프
한계점
현재 평가는 5초 분량의 짧은 클립에 집중되어 있어 더 긴 영상 생성 시의 일관성 유지는 추가 검증이 필요하다. 또한 벤치마크에 사용된 참조 이미지가 AI로 생성된 것이어서 실제 사진 입력 시 약간의 분포 차이가 발생할 수 있다. 매우 격렬한 동작이나 서로 충돌하는 다중 조건이 입력될 경우 영상에 아티팩트나 블러 현상이 나타날 수 있는 한계가 있다.
실무 활용
OmniShow는 특정 인물과 제품의 외형을 유지하면서 오디오와 동작을 정밀하게 제어해야 하는 상업용 영상 제작 분야에 즉시 적용 가능한 수준의 성능을 제공한다.
- 이커머스 제품 시연: 특정 제품 이미지와 설명 오디오를 입력하여 모델이 제품을 설명하는 홍보 영상 자동 생성
- 가상 아바타 및 디지털 휴먼: 사진 한 장과 음성 파일만으로 자연스러운 입모양과 몸짓을 가진 아바타 애니메이션 구현
- 비디오 리믹싱 및 객체 교체: 기존 영상의 인물 포즈는 유지하면서 배경 물건이나 인물의 외형만 변경하는 편집 작업
- 인터랙티브 엔터테인먼트: 사용자의 음성이나 텍스트 입력에 실시간으로 반응하는 캐릭터 콘텐츠 제작
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.