TL;DR
실시간 인터랙티브 비디오 생성을 달성하려면 저지연, 스트리밍 롤아웃, 제어 가능한 흐름이 필요하다. 4-step chunk-wise 증류에 기반한 기존 AR 확산 모델은 해상도와 응답 지연 측면에서 한계를 보였으며, 프레임-단위 1-2 step에서의 효율적 초기화가 결정적 문제로 남아 있었다. 이를 해결하기 위해 causal CD를 도입한 Causal Forcing++은 offline PF-ODE 궤적 저장 없이도 AR 초기화를 가능하게 하여 학습 비용을 크게 줄이고 대기 시간을 절감한다.
왜 중요한가
실시간 인터랙티브 비디오 생성을 달성하려면 저지연, 스트리밍 롤아웃, 제어 가능한 흐름이 필요하다. 4-step chunk-wise 증류에 기반한 기존 AR 확산 모델은 해상도와 응답 지연 측면에서 한계를 보였으며, 프레임-단위 1-2 step에서의 효율적 초기화가 결정적 문제로 남아 있었다. 이를 해결하기 위해 causal CD를 도입한 Causal Forcing++은 offline PF-ODE 궤적 저장 없이도 AR 초기화를 가능하게 하여 학습 비용을 크게 줄이고 대기 시간을 절감한다.
핵심 기여
Causal CD를 통한 few-step AR 초기화의 원리 제시
causal consistency distillation(CD)이 AR teacher의 AR-conditional flow map을 학습하는 목표를 공유한다는 점을 이용해, offline trajectories 없이도 한 타임스텝 간의 온라인 ODE 단계를 통해 초기화를 수행한다.
Causal Forcing++의 프레임-와이즈 2-step 성능 달성
프레임-와이즈 2-step 생성에서도 SOTA 4-step 챙크-와이즈 방법 대비 향상된 벤치마크 성능을 달성하고, 첫 프레임 지연을 50% 감소시켰다.
스테이지 2 비용/저장소 대폭 절감
80K 비디오 규모에서 데이터 큐레이션/저장소 비용이 약 4배 감소하고 저장소는 0 GiB로 감소한다(OL traj 저장 필요 없음).
다양한 초기화 방법에 대한 체계적 비교
causal CD가 1-step, 2-step, 4-step 설정에서 causal ODE Initialization과 대등하거나 우수한 성능을 보이며, DMD 초기화보다 안정적이다.
Genie3 스타일의 action-conditioned world models 확장
카메라 포즈 조건화를 이용한 world model 생성에 Causal Forcing++를 적용해 상호작용형 AR 모델로 확장한다.
핵심 아이디어 이해하기
Step-1: frame-wise AR 생성에서 프레임 간 의존성은 여전히 강력하므로, 초기화 단계가 생성 품질과 롤아웃 안정성에 큰 영향을 준다. 기존의 ODE initialization은 bidirectional teacher의 PF-ODE 궤적을 필요로 해 프레임-레벨에서의 injectivity를 깨뜨려 초기화가 부정확해진다. Step-2: causal CD는 AR teacher의 flow map을 지역적으로(인접 타임스텝 사이) 학습하게 하여, 큰 점프 없이도 목표 흐름 맵에 수렴하도록 한다. 이로써 offline trajectory 저장 없이도 정확한 AR-conditional 분포를 확보하고, DMD 스테이지의 학습 부담을 줄이며 품질을 개선한다. Step-3: 이를 frame-wise 2-step에 적용하더라도 per-step 간의 간격이 Δt로 축소되어 최적화 갭이 작아지므로, self-rollout 기반의 DMD보다 노이즈에 강하고 안정적인 학습이 가능하다. 결과적으로 AR 프레임 단위의 저지연 생성에서 2-step 설정이 SOTA를 달성하며, 4-step chunk-wise 비교에서도 경쟁력을 갖춘다.
관련 Figure

CD의 모드-커버링 특성과 DMD의 모드-시킹 특성 간의 차이를 그래프로 시각화하여, 왜 CD가 장기적으로 더 안정적인_rollout을 제공하는지 설명한다.
Quality vs mode-covering(검정) 비교: CF(CD) vs DMD의 분포 차이. CF는 모드-커버링, DMD는 모드-시킹으로 해석된다.
방법론
- Stage 1: teacher-forcing AR diffusion training으로 bidirectional base 모델에서 AR diffusion 모델로 전환한다. 2) Stage 2: causal CD를 objective로 사용해 AR teacher의 흐름 맵을 근사하도록 θ를 최적화한다. 구체적으로, x_t^i에서 x_t−Δt^i를 한 단계의 ODE로 보정하고, Gθ를 사용해 x_i0을 재현하도록 학습한다. 3) Stage 3: asymmetric DMD를 통해 self-rollout으로 학습된 학생 모델을 평가·개선한다. 4) AR-conditional 흐름 맵의 목표는 fϕ(x_t^i, x_{<t}^gt) → x_0^i를 매핑하는 함수이며, Gθ는 vθ를 이용한 속도 예측으로 xt를 업데이트한다. 5) Stage 2는 48 timesteps의 PF-ODE를 온라인으로 수행하고, Δt의 최대 간격에 따라 가중치 w(t)와 거리 함수 d(·,·)를 사용해 근사치를 학습한다. 6) 학습 데이터로 80K 비디오(OpenVid) 및 VidProM을 사용하고, Stage 1/2/3의 학습 단계 수는 각각 20K/5K/1K이다. 7) 4-step, 2-step, 1-step 설정에서의 성능 차이를 ablation으로 분석한다.
관련 Figure

세 가지 초기화 방식의 차이를 시각적으로 보여주며, CF++가 효율성과 성능 면에서 우위를 점한다는 근거를 제공한다.
CF++의 프레임-단위 2-step 아키텍처를 좌우하는 세 가지 init 방식(CF, SF, CF++)의 비교 다이어그램.

DMD 도입 전후의 품질 변화 및 initialization의 역할을 시각적으로 제시한다.
Before vs After asymmetric DMD: CF 초기화에 따른 영상 품질 차이를 보여주는 패널.
주요 결과
주요 벤치마크에서 CF++의 frame-wise 2-step가 기존 AR 증류를 능가한다. VBench Total은 84.14, Quality는 84.89로 4-step 칸형 방식 대비 최고치를 기록했다(다른 지표도 유사 수준으로 향상). first-frame latency는 50% 감소했고 Stage 2 비용은 약 4× 감소했다. 80K 비디오 규모에서 Stage 2 데이터 큐레이션 시간은 ∼2,900 GPU-hours, 추가 저장소는 0 GiB로 보고된다. Ablation 결과, 1-step/2-step/4-step 설정에서 causal CD Initialization은 causal ODE Initialization과 동등하거나 더 우수한 성능을 보였고, Causal DMD Initialization보다도 우수했다. action-conditioned world models로의 확장도 제시되며, Genie3 방식의 카메라 포즈 조건화를 통한 대화형 월드 모델 생성이 가능하다.
관련 Figure

다양한 초기화 전략이 DMD 후 품질에 미치는 영향을 비교하며, CF++의 초기화가 안정적임을 시사한다.
DMD 후 초기화 방법에 따른 VBench 지표 비교( Self Forcing ODE / AR diffusion 초기화 / Casual Forcing ODE 초기화 ).

각 초기화 방식의 생성 품질 차이를 시각적으로 보여주며, CF++가 더 견고한 프레임-별 품질을 유지한다는 근거를 제공한다.
Self Forcing ODE init, AR diffusion init, Casual Forcing ODE init에 따른 프레임 샷 모음(4-step/1-step 등).

초기화 방식에 따른 영상 품질의 차이를 직관적으로 보여주며, CF/CD가 우수한 품질을 유지한다는 근거를 제공한다.
각 초기화 방법에 따른 Final 결과의 품질 비교(1-step/2-step/4-step).
기술 상세
아키텍처: Stage 1 - AR diffusion teacher-forcing training; Stage 2 - causal CD 손실을 통한 AR teacher의 flow map 근사; Stage 3 - asymmetric DMD를 통해 self-rollout으로 학습된 스튜던트를 평가. 수학적 기초: Gθ(x_t, x_{<gt}, t) = x_t − t vθ(x_t, x_{<gt}, t)로 velocity를 예측하고, θ* = argmin E_{x,t,i}[ w(t) d( Gθ(x_t^i, x_{<gt}^i,t), G_{θ−}(x̂_t−Δt^i, x_{<gt}^i, t−Δt) ) ]을 최소화한다. 이때 fϕ는 AR 조건부 흐름 맵이며, x̂_t−Δt는 AR teacher의 한 번의 ODE 스텝으로 얻는다. 데이터 흐름은 Stage 1(teacher forcing AR diffusion training) → Stage 2(Causal CD) → Stage 3( asymmetric DMD with self-rollout)이며, 48 timesteps의 PF-ODE를 활용한 Stage 2의 온라인 학습과 Euler solver를 사용한다. 차이점: causal ODE initialization은 offline PF-ODE 트레이젝터를 필요로 하는 반면, causal CD는 real videos에서 인접 타임스텝만으로 학습하므로 데이터 저장 비용이 0에 가깝다. 결과적으로 per-step gap이 Δt로 줄어들어 최적화가 수월해진다.
실무 활용
실시간 인터랙티브 비디오 생성에 적합한 프레임-단위 2-step AR 증류를 제공하며, offline trajectory 저장 없이도 높은 품질의 AR 비디오를 생성한다. 또한 Genie3 스타일의 world models 확장이 가능하다.
- 실시간 스트리밍 아바타 생성
- 인터랙티브 게임 내 비디오 콘텐츠 생성
- 실시간 영상 편집 및 수정 도구
- AR/VR 기반 실시간 월드 모델 시뮬레이션
- 제작 파이프라인의 대기 시간 감소
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.