핵심 요약
짧은 영상 데이터는 풍부하지만 장편 영상 데이터는 매우 부족한 문제를 해결하기 위해, 짧은 영상의 고화질 특성과 긴 영상의 서사 구조를 분리하여 학습하는 새로운 방식을 제안함. 이를 통해 기존 모델들이 긴 영상을 만들 때 화질이 저하되던 한계를 극복하고, 매우 적은 단계의 계산만으로도 선명한 장편 영상을 생성할 수 있게 함.
왜 중요한가
짧은 영상 데이터는 풍부하지만 장편 영상 데이터는 매우 부족한 문제를 해결하기 위해, 짧은 영상의 고화질 특성과 긴 영상의 서사 구조를 분리하여 학습하는 새로운 방식을 제안함. 이를 통해 기존 모델들이 긴 영상을 만들 때 화질이 저하되던 한계를 극복하고, 매우 적은 단계의 계산만으로도 선명한 장편 영상을 생성할 수 있게 함.
핵심 기여
DDT(Decoupled Diffusion Transformer) 아키텍처
공유 인코더와 두 개의 독립적인 디코더 헤드를 통해 전역적 일관성과 국소적 세부 묘사를 분리하여 최적화함.
모드 탐색 기반의 국소 정렬 기법
슬라이딩 윈도우 역-KL 발산을 활용해 학생 모델을 고성능 단편 비디오 전문가 모델에 정렬시켜 선명한 화질을 유지함.
평균 탐색 기반의 전역 서사 학습
희소한 장편 비디오 데이터를 Flow Matching 방식으로 학습하여 긴 시간대의 일관된 움직임과 구조를 확보함.
핵심 아이디어 이해하기
비디오 생성 모델이 몇 초 분량의 짧은 클립을 만드는 데는 성공했지만, 이를 분 단위로 확장하면 화질이 흐려지거나 일관성이 깨지는 문제가 발생한다. 이는 긴 영상 데이터가 부족하여 모델이 여러 가능성을 평균적으로 예측하려다 보니 세부적인 질감이 뭉개지는 '평균의 함정'에 빠지기 때문이다. 이 논문은 이 문제를 해결하기 위해 '평균 탐색(Mean Seeking)'과 '모드 탐색(Mode Seeking)'을 결합한다. 전체적인 이야기의 흐름은 실제 긴 영상을 따라가는 평균 탐색으로 잡고, 매 순간의 생생한 화질은 이미 검증된 짧은 영상 전문가 모델의 가장 선명한 상태(모드)를 복제하는 모드 탐색으로 해결한다. 결과적으로 하나의 모델 안에 두 개의 전문 엔진을 탑재한 것과 같다. 한 엔진은 전체적인 줄거리를 관리하고, 다른 엔진은 각 장면의 디테일을 선명하게 다듬음으로써, 데이터가 부족한 장편 비디오 영역에서도 단편 비디오 수준의 압도적인 화질을 유지할 수 있게 된다.
방법론
DDT(Decoupled Diffusion Transformer) 아키텍처를 기반으로 하며, 공유된 조건부 인코더 가 입력된 비디오 잠재 변수를 통합 표현 로 변환한다. 이 표현은 전역적 일관성을 담당하는 Flow Matching(FM) 헤드와 국소적 사실감을 담당하는 Distribution Matching(DM) 헤드로 동시에 전달되어 처리된다. FM 헤드는 실제 장편 비디오 데이터를 활용해 지도 학습 방식의 손실 함수 를 최적화한다. 이는 모델이 긴 시간 동안의 객체 움직임과 서사적 구조를 학습하도록 유도하는 앵커 역할을 수행하며, 전체적인 영상의 흐름을 결정한다. DM 헤드는 슬라이딩 윈도우 방식을 통해 학생 모델이 생성한 각 구간을 전문가 모델의 분포에 정렬시킨다. 이때 역-KL 발산 그래디언트를 주입하는데, 전문가의 속도 와 학생의 속도 의 차이를 계산하여 학생 모델이 전문가의 고화질 모드에 집중하도록 강제한다. 추론 시에는 FM 헤드를 제외하고 DM 헤드만을 사용하여 단 몇 단계의 샘플링만으로도 영상을 생성한다. 공유 인코더가 이미 전역적 서사와 국소적 디테일을 모두 학습했기 때문에, 적은 연산으로도 일관성과 화질을 모두 갖춘 장편 비디오 출력이 가능하다.
주요 결과
VBench-Long 벤치마크 평가 결과, 제안된 모델은 피사체 일관성(0.9682)과 배경 일관성(0.9548)에서 기존의 대규모 SFT 모델들과 대등하거나 더 높은 성능을 기록했다. 특히 움직임의 부드러움(Motion Smoothness) 지표에서 0.9863을 달성하며 자연스러운 영상 생성을 입증했다. 추론 효율성 측면에서 기존 모델들이 50단계의 샘플링을 필요로 했던 것과 달리, 본 모델은 단 4단계(NFE=4)만으로도 더 선명하고 생동감 넘치는 영상을 생성했다. 이는 실제 서비스 적용 시 연산 비용을 획기적으로 줄일 수 있음을 의미한다. 정성적 비교 분석에서 기존 방식들은 영상이 길어질수록 피사체의 형태가 뭉개지거나 배경이 급격히 변하는 현상이 잦았으나, 본 모델은 30초 이상의 긴 호흡에서도 피사체의 디테일을 유지하며 안정적인 서사를 이어가는 모습을 보였다.
기술 상세
DDT 아키텍처는 Full-attention 기반의 비디오 확산 트랜스포머를 공유 백본으로 사용하며, 그 위에 두 개의 경량 디코더 헤드를 얹은 구조이다. 인코더는 긴 컨텍스트의 시공간적 특징을 추출하여 두 헤드가 공통된 정보를 바탕으로 서로 다른 목표를 수행할 수 있게 한다. 수학적으로 FM 헤드는 조건부 평균 예측을 통해 데이터의 결정론적 궤적을 학습하며, DM 헤드는 DMD(Distribution Matching Distillation) 기법을 비디오 영역으로 확장하여 적용한다. 이는 학생 모델의 분포 를 전문가 분포 에 정렬시키는 모드 탐색 과정을 포함한다. 슬라이딩 윈도우 구현 시 발생하는 경계 불일치 문제를 해결하기 위해, 윈도우 시작점의 잠재 변수를 이미지로 디코딩한 후 다시 인코딩하여 컨텍스트로 주입하는 기법을 도입했다. 이를 통해 비인과적 모델에서도 각 윈도우가 전체 맥락과 어긋나지 않도록 보정한다. 학습 전략으로는 두 가지 손실 함수의 그래디언트가 서로 간섭하지 않도록 분리하여 업데이트하는 방식을 취했다. 공유 인코더는 두 신호를 모두 받아 전역적 서사와 국소적 디테일이 융합된 표현력을 갖추게 되며, 이는 추론 시 DM 헤드만으로도 고품질 생성이 가능한 기반이 된다.
한계점
본 연구는 현재 1분 내외의 영상 생성에 최적화되어 있으며, 그 이상의 초장편 영상 생성 시 발생할 수 있는 누적 오차나 안정성에 대해서는 추가적인 연구가 필요하다. 또한 인과적(causal) 자기회귀 구조를 직접적으로 사용하지 않아, 실시간 스트리밍 생성으로의 확장을 위해서는 아키텍처의 추가적인 조정이 요구될 수 있다.
실무 활용
고화질 장편 비디오 생성이 필요한 산업 분야에서 적은 연산 자원으로 고품질 결과물을 얻을 수 있는 실질적인 해결책을 제시함. 기존의 짧은 영상 모델을 기반으로 장편 생성 능력을 빠르게 이식할 수 있는 것이 장점임.
- 영화 및 애니메이션의 롱테이크 장면 생성
- 게임 내 실시간 월드 시뮬레이션 및 배경 영상 제작
- 긴 서사를 가진 광고 및 마케팅 영상 자동 생성
- 가상 현실(VR) 환경을 위한 지속적인 고화질 비디오 스트리밍
코드 공개 여부: 미확인
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.