TL;DR
다중 샷으로 구성된 장편 비디오 생성은 단일 샷의 확장으로 보기 어렵다. 기존 AR 모델은 샷 경계에서 신규 콘텐츠 도입이나 시점 변화에 취약하고, 시맨틱 drift가 발생하기 쉽다. CausalCine은 샷 경계에서의 인과적 의존성을 학습하고, Content-Aware Memory Routing으로 과거 정보를 콘텐츠 유사도에 따라 재사용하여 긴 범위의 맥락을 유지한다. 이로써 실시간 스트리밍 인터랙티브 멀티샷 비디오 생성을 가능하게 한다.
왜 중요한가
다중 샷으로 구성된 장편 비디오 생성은 단일 샷의 확장으로 보기 어렵다. 기존 AR 모델은 샷 경계에서 신규 콘텐츠 도입이나 시점 변화에 취약하고, 시맨틱 drift가 발생하기 쉽다. CausalCine은 샷 경계에서의 인과적 의존성을 학습하고, Content-Aware Memory Routing으로 과거 정보를 콘텐츠 유사도에 따라 재사용하여 긴 범위의 맥락을 유지한다. 이로써 실시간 스트리밍 인터랙티브 멀티샷 비디오 생성을 가능하게 한다.
핵심 기여
Long-context causal tuning for multi-shot video
네이티브 롱폼 long-form sequence에서 2N-segment packing과 parallel teacher forcing으로 샷 간 전이 의존성을 학습하는 풀-스텝(causal) 멀티샷 베이스 모델을 훈련한다.
Content-Aware Memory Routing (CAMR)
쿼리-키 매칭 기반으로 과거 KV 엔트리를 top-k로 선택하고 로컬 윈도우+세멘틱 메모리를 결합해 샷 간의 긴-range 컨텍스트를 보존한다.
Per-shot conditioning and memory routing sharing
샷 경계에서 프롬프트 변화가 시각적 전이에 직접 반영되도록 per-shot conditioning을 도입하고 TF 학습과 추론에서 동일한 라우팅 모듈을 활용한다.
Few-step distillation with adversarial regularization
50-step causal 베이스를 four-step DMD 학생으로 교환하는 distillation 과정을 도입하고, self-forcing 단계에서 GAN 정규화를 통해 시퀀스 수준 드리프트를 억제한다.
Real-time interactive multi-shot generation
KV 캐싱과 샷-기반 프롬프트 업데이트를 통해 실시간으로 샷을 추가하고 이전 샷을 재생성 없이 유지하는 스트리밍 멀티샷 비디오 생성 체계를 제시한다.
핵심 아이디어 이해하기
출발점은 기존의 단일 샷 중심 AR 비디오 생성이 롤아웃 길이가 길어질수록 모션의 흐름이 고정되거나 의미가 drift되는 한계를 보인다는 점이다. 본 논문은(1) 샷 경계가 있는 롱폼 시퀀스에서 인과 의존성을 학습하는 풀-스텝 베이스 모델을 먼저 만든 뒤, (2) 콘텐츠 유사도에 기반한 CAMR로 긴 범위의 시맨틱 정보를 효율적으로 기억에 저장하고 필요 시 재활용하며, (3) 이를 Four-step Distillation으로 간소화하여 실시간 인터랙티브 생성이 가능하도록 한다. 이 접근은 샷-별 프롬프트 변화, 신규 샷 도입, 기억된 엔티티의 재등장 등을 자연스럽게 처리하는 것이 핵심이다. 긴 맥락 학습이 먼저이고, 이후에 속도/효율성 향상을 위한 단계 축소가 뒤따른다.
방법론
(1) 전체 접근 방식은 비디오 디퓨전의 흐름-매칭를 기반으로 한 원래의 양방향 모델에서 시작하되, causal multi-shot 학습으로 확장한다. (2) 샷 경계가 있는 시퀀스를 샷별 프롬프트(c(s))로 조건화하고, 2N packing을 통해 한 번의 패스에서 clean context와 noisy queries 두 파트를 함께 학습한다. (3) CAMR은 history frames의 key를 mean-pooling하여 각 cached frame에 대한 descriptor d_f를 만들고, current chunk의 query qi와의 dot-product를 통해 Top-k frames를 선택한다. (4) RoPE를 재정렬하는 Block-Relative RoPE를 도입해 롤아웃 길이에 관계없이 위치 편향이 training 범위 내에 머물게 한다. (5) Distillation 단계에서 50-step teacher의 denoising trajectory를 4-step Gϕ로 압축하는 DMD를 적용하고, self-forcing과 GAN 정규화를 결합해 시퀀스 드리프트를 줄인다.
관련 Figure

패킹된 clean/ noisy 구간과 샷별 프롬프트가 어떻게 연결되는지 시각화하며, 학습 시 모델이 미래 정보를 보지 않고도 샷 간 의존성을 학습하도록 돕는다.
Figure 2(a)에서 2N-segment packing과 parallel teacher forcing으로 causal self-attention의 작동 방식을 보여준다.

샷 단위 프롬프트와 의존성 경로를 명확히 구분하고, 샷 전환에 따른 프롬프트 반영과 기억 메모리의 선택 원리를 시각화한다.
Figure 2의 (a)(b)(c) 구성으로, (a) causal self-attention, (b) per-shot cross attention, (c) Content-Aware Memory Routing을 한 눈에 보여준다.

CAMR의 메모리 재검색이 샷 간 재등장과 일관성 유지에 기여하는 방식을 시각적으로 보강한다.
샷1~샷5에서 memory routing의 효과를 보여주는 다이어그램으로, memory 없이 expansion과 inter-shot inconsistency를 대비한다.
주요 결과
주요 벤치마크에서 자동회귀 baselines를 능가하거나 근접한 성능을 달성한다. Table 1에서 Self-Forcing, Infinity-RoPE, LongLive, MemFlow, ShotStream 대비 Our가 Aesthetic, Text Alignment, Subject Consistency, Background Consistency, SCA에서 우수한 점수를 얻었다. 구체적으로 Our의 점수는 0.6261(Aesthetic), 0.1980(Text Align), 0.9717(Subject Consistency) 등으로 나타난다. Table 2의 15s 설정 비교에서 Ours(Causal, 4-step)는 0.6194(Aesthetic), 0.2004(Text Align), 0.9823(Intra-Shot Cons.), 0.9752(Inter-Shot Cons.), 0.6608(SCA), 0.9883(Subject Background)로 Bidirectional baselines와 비슷한 시각적 품질과 더 나은 샷 간 일관성을 보인다. Ablation으로 causal tuning 없이 multi-shot tuning을 제거하면 Aesthetic 0.5967 등 하향하며 샷 간 일관성도 저하된다. CAMR 없이 memory를 제거하면 0.5827 등으로 저하되며, content routing이 가장 높은 샷 간 일관성(Inter-Shot Cons. 0.9529)을 보여준다. Four-step distillation은 50-step causal base 수준의 품질을 유지하면서 추론 속도를 대폭 개선한다. GAN 정규화의 유무에 따라 시퀀스 수준의 드리프트가 차이가 나며, GAN 정규화로 안정된 프레이밍이 확보된다.
관련 Figure

샷 단위 AR 및 Baseline 간 프레이밍, 인물 일관성, 배경 일관성의 차이를 시각적으로 비교한다.
The story of an explorer and alien in a lush, vibrant jungle의 다샷 비교 결과를 보여주는 결과 시퀀스 이미지(grid).
기술 상세
(1) 아키텍처: Flow-matching 비디오 확산 모델 기반의 2N packing과 parallel teacher forcing으로 긴 시퀀스의 인과 구조를 학습한다. (2) 학습 세부: chunk는 N개의 연속 프레임(x(i))으로 구성되며, 각 청크의 프롬프트는 해당 샷(c(π(i)))으로 고정되도록 샷 인덱스 조건부 교차-어텐션을 사용한다. (3) CAMR: 프레임별 descriptor df를 키의 평균으로 구성하고 qi와의 dot-product로 si,f를 계산, Top-k를 선택한다. (4) RoPE: Block-Relative RoPE로 재 인코딩하여 롤아웃 길이에 따른 위치 편향 문제를 완화한다. (5) Distillation: 50-step teacher를 4-step student로 변환하는 DMD를 적용하고, x˜0,ϕ에서 self-forcing으로부터의 기울기를 활용한다. (6) 약점 보완: Adversarial regularization(Dη)으로 시퀀스 차원의 드리프트를 억제한다.
한계점
실시간 생성을 목표로 Wan2.1-T2V-14B 백본을 사용하고 8x H200에서 16 FPS로 구동되므로 상용 하드웨어에 대한 제약이 있다. 또한 객체 상태 추적이나 물리적 연속성 같은 미세한 상태 변화에 대해서는 명시적 메모리나 3D 표현이 보완되지 않으면 한계가 있다.
실무 활용
실시간 인터랙티브 멀티샷 비디오 생성이 가능하도록 causal multi-shot 학습과 memory routing을 결합한 프레임워크다.
- 실시간 스토리텔링 영상 생성 시스템
- 인터랙티브 비디오 콘텐츠 제작 워크플로우
- 게임 엔진 내 컷신 자동 생성 및 편집 보조
- 원격 협업형 영상 시나리오 프로토타이핑
코드 공개 여부: 미확인
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.