핵심 요약
비디오 생성을 몇 초에서 몇 분 단위로 확장하는 것은 심각한 병목 현상에 직면해 있습니다. 단편 비디오 데이터는 풍부하고 고화질인 반면, 일관성 있는 장편 데이터는 부족하고 특정 도메인에 한정되어 있기 때문입니다. 이를 해결하기 위해 본 논문은 '모드 탐색(Mode Seeking)'과 '평균 탐색(Mean Seeking)'이 만나는 새로운 학습 패러다임을 제안하며, 디커플링 확산 트랜스포머(Decoupled Diffusion Transformer)를 통한 통합 표현을 기반으로 국소적 충실도(local fidelity)와 장기적 일관성(long-term coherence)을 분리합니다. 제안된 접근 방식은 장편 비디오에 대한 지도 학습(supervised learning)을 통해 훈련된 전역 플로우 매칭(global Flow Matching) 헤드를 사용하여 서사 구조를 포착하는 동시에, 모드 탐색 역 KL 발산(mode-seeking reverse-KL divergence)을 통해 슬라이딩 윈도우(sliding windows)를 고정된 단편 비디오 교사 모델(short-video teacher)에 정렬하는 국소 분포 매칭(local Distribution Matching) 헤드를 사용합니다. 이 전략을 통해 지도형 플로우 매칭으로 제한된 장편 비디오에서 장거리 일관성과 움직임을 학습하면서도, 학생 모델의 모든 슬라이딩 윈도우 세그먼트를 고정된 단편 비디오 교사 모델에 정렬함으로써 국소적 사실성을 상속받아 분 단위의 비디오를 합성할 수 있게 합니다. 그 결과 몇 단계만으로 작동하는 빠른 장편 비디오 생성기가 탄생했습니다. 평가 결과, 본 방법은 국소적 선명도, 움직임 및 장거리 일관성을 공동으로 개선함으로써 충실도와 시간적 범위 사이의 간극을 효과적으로 메우는 것으로 나타났습니다.
핵심 기여
디커플링 확산 트랜스포머(Decoupled Diffusion Transformer) 구조
비디오의 국소적 세부 사항과 장기적 서사 구조를 별도의 헤드로 분리하여 처리함으로써 데이터 부족 문제를 해결하는 새로운 아키텍처를 설계했다.
전역 플로우 매칭(Global Flow Matching) 헤드
희소한 장편 비디오 데이터를 활용해 전체적인 이야기 흐름과 일관된 움직임을 학습하는 지도 학습 기반의 헤드를 도입했다.
국소 분포 매칭(Local Distribution Matching) 헤드
풍부한 단편 비디오 데이터를 학습한 교사 모델로부터 고화질의 세부 묘사를 전수받기 위해 역 KL 발산을 활용한 정렬 기법을 적용했다.
방법론
디커플링 확산 트랜스포머를 기반으로, 장편 비디오의 서사적 구조를 학습하는 전역 플로우 매칭 헤드와 단편 비디오 교사 모델의 고화질 특성을 모사하는 국소 분포 매칭 헤드를 결합한다. 특히 국소 분포 매칭에는 모드 탐색 역 KL 발산을 사용하여 슬라이딩 윈도우 세그먼트 단위로 고화질 정보를 주입한다.
주요 결과
분 단위(minute-scale)의 비디오 합성을 실현했으며, 몇 단계(few-step)의 추론만으로 작동하는 빠른 생성 속도를 기록했다. 국소적 선명도(Local Sharpness), 움직임(Motion), 장거리 일관성(Long-range Consistency) 지표에서 기존 방식 대비 향상된 성능을 보여주었다.
시사점
데이터가 부족한 장편 비디오 생성 분야에서 단편 비디오의 지식을 효율적으로 전이할 수 있는 실무적 프레임워크를 제공한다. 영화 제작이나 긴 애니메이션 생성 등 고화질과 긴 호흡의 일관성이 동시에 요구되는 AI 영상 제작 파이프라인에 즉시 응용될 수 있다.
키워드
섹션별 상세
디커플링 확산 트랜스포머(Decoupled Diffusion Transformer) 구조
전역 플로우 매칭(Global Flow Matching) 헤드
국소 분포 매칭(Local Distribution Matching) 헤드
AI 요약 · 북마크 · 개인 피드 설정 — 무료