핵심 요약
기존의 멀티모달 모델은 텍스트 이해 모델을 확장해 이미지를 생성하는 방식이었으나, 비디오 생성은 연산 비용이 훨씬 높다는 불균형이 존재한다. 이 논문은 비디오 생성기를 기본 토대로 삼아 텍스트 생성 및 비디오 이해 능력을 확장함으로써 더 효율적이고 확장 가능한 통합 지능의 방향성을 제시한다.
왜 중요한가
기존의 멀티모달 모델은 텍스트 이해 모델을 확장해 이미지를 생성하는 방식이었으나, 비디오 생성은 연산 비용이 훨씬 높다는 불균형이 존재한다. 이 논문은 비디오 생성기를 기본 토대로 삼아 텍스트 생성 및 비디오 이해 능력을 확장함으로써 더 효율적이고 확장 가능한 통합 지능의 방향성을 제시한다.
핵심 기여
Uni-Flow 통합 생성 프로세스
비디오의 연속적 흐름 매칭(Continuous Flow Matching)과 텍스트의 이산적 흐름 매칭(Discrete Flow Matching)을 단일 프로세스 내에서 수행하여 두 모달리티를 동시에 생성한다.
Modality-driven MoE 아키텍처
Transformer 블록 내에서 Attention 레이어는 공유하여 모달리티 간 정렬을 유지하고, FFN 레이어는 비디오와 텍스트 전용 전문가로 분리하여 각 도메인의 생성 성능을 보존한다.
2단계 양방향 학습 메커니즘
Knowledge Recall 단계에서 입력 프롬프트를 재구성하여 생성 지식을 이해 지식으로 전환하고, Capability Refinement 단계에서 상세 캡션을 통해 정교한 비디오 이해 능력을 확보한다.
핵심 아이디어 이해하기
기존의 멀티모달 대형 언어 모델(MLLM)은 텍스트를 처리하는 Transformer 구조에 이미지/비디오 생성 기능을 덧붙이는 방식이었다. 하지만 비디오 생성은 수백만 개의 토큰을 처리해야 하는 반면 텍스트 생성은 상대적으로 적은 토큰을 사용하므로, 연산량의 대부분을 차지하는 비디오 생성기를 중심축으로 삼는 것이 구조적으로 더 유리하다는 점에 착안했다.
이 모델은 비디오 생성 모델인 WAN2.1을 기반으로 한다. 비디오 생성은 노이즈에서 영상을 만들어가는 확산(Diffusion) 과정을 따르지만, 텍스트는 단어를 하나씩 예측하는 자기회귀(Autoregressive) 방식을 주로 사용한다. Uni-ViGU는 이 차이를 극복하기 위해 텍스트 토큰을 임베딩 공간상의 점으로 간주하고, 비디오와 마찬가지로 확산 기반의 흐름 매칭(Flow Matching) 방식을 적용해 단일 네트워크에서 두 데이터를 동시에 처리하도록 설계했다.
결과적으로 생성 모델이 학습한 '텍스트에서 비디오로의 매핑' 지식을 역으로 활용하면 '비디오에서 텍스트로의 매핑(이해)'이 가능하다는 원리를 이용한다. 이를 통해 별도의 거대한 언어 모델 없이도 비디오 생성기가 스스로 영상을 설명하고 질문에 답하는 능력을 갖추게 된다.
방법론
전체 구조는 WAN2.1 비디오 생성기를 기반으로 하며, 비디오와 텍스트를 통합 처리하기 위해 Uni-Flow 방식을 도입한다. 비디오는 VAE를 통해 압축된 연속적인 잠재 공간에서 Flow Matching을 수행하고, 텍스트는 이산적인 토큰 임베딩 공간에서 Flow Matching을 수행한다. [비디오/텍스트 잠재 변수를 입력으로] → [선형 보간을 통해 노이즈가 섞인 중간 상태를 생성하고] → [모델이 해당 지점에서의 변화 속도인 velocity를 예측하도록 학습하여] → [노이즈로부터 데이터를 복원하는 생성 능력을 확보한다].
아키텍처 측면에서는 Modality-driven MoE 구조를 사용한다. Transformer 블록의 Self-Attention과 Cross-Attention 레이어는 비디오와 텍스트 토큰이 서로 참조할 수 있도록 공유한다. 반면 FFN(Feed-Forward Network) 레이어는 비디오 전용(V-FFN)과 텍스트 전용(T-FFN)으로 분리한다. [입력 토큰의 모달리티 정보를 입력으로] → [해당하는 전용 FFN 레이어를 선택해 연산하여] → [모달리티 고유의 특성을 보존하면서도] → [공유된 Attention을 통해 두 모달리티 간의 정렬된 표현을 학습한다].
학습은 2단계로 진행된다. 1단계 Knowledge Recall에서는 입력된 프롬프트를 다시 생성하도록 하여 생성 모델의 사전 지식을 활성화한다. 2단계 Capability Refinement에서는 LLM으로 생성한 상세 캡션 데이터를 학습에 사용한다. [비디오 잠재 변수와 노이즈 섞인 텍스트를 입력으로] → [공유 Attention을 통해 비디오 정보를 참조하여 텍스트를 복원하게 함으로써] → [비디오의 세부 속성과 시간적 흐름을 텍스트로 설명하는] → [정교한 비디오 이해 능력을 구축한다].
관련 Figure

비디오와 텍스트가 각각 VAE와 UMT5를 통해 잠재 공간으로 인코딩된 후, 공유된 DiT 블록 내에서 어떻게 처리되는지 보여준다. 특히 FFN 레이어가 비디오(V-FFN)와 텍스트(T-FFN)로 분리되어 전문화된 처리를 수행함을 시각화하고 있다.
Uni-ViGU 프레임워크의 전체 아키텍처와 Unified Flow Matching 과정을 보여주는 다이어그램이다.
주요 결과
Uni-ViGU는 비디오 생성과 이해 모두에서 경쟁력 있는 성능을 입증했다. 특히 공동 생성(Joint Generation) 실험에서 비디오와 텍스트를 동시에 생성할 때, 생성된 텍스트 캡션이 원래의 입력 프롬프트보다 비디오의 시각적 내용을 훨씬 더 상세하고 정확하게 묘사하는 것으로 나타났다.
비디오 이해 벤치마크에서도 생성 중심 아키텍처가 유효함을 보였다. 16개의 H800 GPU를 사용하여 일주일 이내의 학습만으로도 기존의 이해 중심 MLLM들과 대등한 수준의 비디오 캡셔닝 및 질의응답 성능을 달성했다. 이는 생성 모델에 내재된 풍부한 시각-언어 대응 지식이 이해 작업으로 효과적으로 전이될 수 있음을 의미한다.
관련 Figure

모델이 비디오를 생성함과 동시에 해당 영상의 세부 사항(인물의 복장, 동작, 배경의 질감 등)을 매우 구체적인 텍스트로 묘사할 수 있음을 증명한다. 이는 생성과 이해가 단일 프로세스 내에서 긴밀하게 통합되었음을 보여주는 결과이다.
Uni-ViGU가 생성한 비디오 프레임과 그에 대응하여 생성된 상세 텍스트 캡션의 예시이다.
기술 상세
Uni-ViGU의 핵심은 비디오 생성기의 DiT(Diffusion Transformer) 블록을 MoE 구조로 개편한 것이다. 기존 DiT 블록의 FFN을 복제하여 텍스트 전용 경로를 만들고, Attention 레이어는 비디오와 텍스트 토큰을 결합(Concatenation)하여 처리하도록 수정했다. 이를 통해 파라미터 증가를 최소화하면서도 모달리티 간 상호작용을 극대화했다.
수학적으로는 연속형(Continuous)과 이산형(Discrete) Flow Matching을 결합한 목적 함수를 사용한다. 텍스트 생성 시 임베딩 공간에서의 Flow Matching은 기존의 자기회귀 방식보다 병렬성이 높으며, 비디오 생성 과정과 동일한 프레임워크 내에서 최적화가 가능하다. 학습 시에는 토큰 수의 불균형(비디오 약 3만 개 vs 텍스트 256개)을 해결하기 위해 손실 함수에 토큰 수 기반의 정규화 가중치 λ를 적용하여 균형 있는 학습을 유도했다.
한계점
비디오 생성 모델의 사전 학습된 가중치에 크게 의존하므로, 기반 모델인 WAN2.1의 성능 한계가 Uni-ViGU의 성능 상한선으로 작용할 수 있다. 또한 상세 캡션 데이터를 생성하기 위해 별도의 LLM을 사용해야 하므로 데이터 준비 단계에서의 비용이 발생한다.
실무 활용
비디오 생성 모델을 별도의 언어 모델 추가 없이 이해 도구로도 활용할 수 있어, 비디오 편집 및 콘텐츠 제작 워크플로우를 단순화할 수 있다.
- 비디오 생성과 동시에 해당 영상에 대한 상세 메타데이터 및 캡션 자동 생성
- 생성된 비디오의 내용을 텍스트로 질의응답하며 수정 사항을 지시하는 대화형 비디오 편집
- 저비용으로 비디오 생성 모델에 비디오 이해 기능을 통합하려는 엣지 디바이스용 AI 구축
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.