Causal Forcing++: 실시간 인터랙티브 비디오 생성을 위한 확장 가능한 Few-Step AR 확산 증류

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

실시간 인터랙티브 비디오 생성을 달성하려면 저지연, 스트리밍 롤아웃, 제어 가능한 흐름이 필요하다. 4-step chunk-wise 증류에 기반한 기존 AR 확산 모델은 해상도와 응답 지연 측면에서 한계를 보였으며, 프레임-단위 1-2 step에서의 효율적 초기화가 결정적 문제로 남아 있었다. 이를 해결하기 위해 causal CD를 도입한 Causal Forcing++은 offline PF-ODE 궤적 저장 없이도 AR 초기화를 가능하게 하여 학습 비용을 크게 줄이고 대기 시간을 절감한다.

왜 중요한가

실시간 인터랙티브 비디오 생성을 달성하려면 저지연, 스트리밍 롤아웃, 제어 가능한 흐름이 필요하다. 4-step chunk-wise 증류에 기반한 기존 AR 확산 모델은 해상도와 응답 지연 측면에서 한계를 보였으며, 프레임-단위 1-2 step에서의 효율적 초기화가 결정적 문제로 남아 있었다. 이를 해결하기 위해 causal CD를 도입한 Causal Forcing++은 offline PF-ODE 궤적 저장 없이도 AR 초기화를 가능하게 하여 학습 비용을 크게 줄이고 대기 시간을 절감한다.

핵심 기여

Causal CD를 통한 few-step AR 초기화의 원리 제시

causal consistency distillation(CD)이 AR teacher의 AR-conditional flow map을 학습하는 목표를 공유한다는 점을 이용해, offline trajectories 없이도 한 타임스텝 간의 온라인 ODE 단계를 통해 초기화를 수행한다.

Causal Forcing++의 프레임-와이즈 2-step 성능 달성

프레임-와이즈 2-step 생성에서도 SOTA 4-step 챙크-와이즈 방법 대비 향상된 벤치마크 성능을 달성하고, 첫 프레임 지연을 50% 감소시켰다.

스테이지 2 비용/저장소 대폭 절감

80K 비디오 규모에서 데이터 큐레이션/저장소 비용이 약 4배 감소하고 저장소는 0 GiB로 감소한다(OL traj 저장 필요 없음).

다양한 초기화 방법에 대한 체계적 비교

causal CD가 1-step, 2-step, 4-step 설정에서 causal ODE Initialization과 대등하거나 우수한 성능을 보이며, DMD 초기화보다 안정적이다.

Genie3 스타일의 action-conditioned world models 확장

카메라 포즈 조건화를 이용한 world model 생성에 Causal Forcing++를 적용해 상호작용형 AR 모델로 확장한다.

핵심 아이디어 이해하기

Step-1: frame-wise AR 생성에서 프레임 간 의존성은 여전히 강력하므로, 초기화 단계가 생성 품질과 롤아웃 안정성에 큰 영향을 준다. 기존의 ODE initialization은 bidirectional teacher의 PF-ODE 궤적을 필요로 해 프레임-레벨에서의 injectivity를 깨뜨려 초기화가 부정확해진다. Step-2: causal CD는 AR teacher의 flow map을 지역적으로(인접 타임스텝 사이) 학습하게 하여, 큰 점프 없이도 목표 흐름 맵에 수렴하도록 한다. 이로써 offline trajectory 저장 없이도 정확한 AR-conditional 분포를 확보하고, DMD 스테이지의 학습 부담을 줄이며 품질을 개선한다. Step-3: 이를 frame-wise 2-step에 적용하더라도 per-step 간의 간격이 Δt로 축소되어 최적화 갭이 작아지므로, self-rollout 기반의 DMD보다 노이즈에 강하고 안정적인 학습이 가능하다. 결과적으로 AR 프레임 단위의 저지연 생성에서 2-step 설정이 SOTA를 달성하며, 4-step chunk-wise 비교에서도 경쟁력을 갖춘다.

방법론

Stage 1: teacher-forcing AR diffusion training으로 bidirectional base 모델에서 AR diffusion 모델로 전환한다. 2) Stage 2: causal CD를 objective로 사용해 AR teacher의 흐름 맵을 근사하도록 θ를 최적화한다. 구체적으로, x_t^i에서 x_t−Δt^i를 한 단계의 ODE로 보정하고, Gθ를 사용해 x_i0을 재현하도록 학습한다. 3) Stage 3: asymmetric DMD를 통해 self-rollout으로 학습된 학생 모델을 평가·개선한다. 4) AR-conditional 흐름 맵의 목표는 fϕ(x_t^i, x_{<t}^gt) → x_0^i를 매핑하는 함수이며, Gθ는 vθ를 이용한 속도 예측으로 xt를 업데이트한다. 5) Stage 2는 48 timesteps의 PF-ODE를 온라인으로 수행하고, Δt의 최대 간격에 따라 가중치 w(t)와 거리 함수 d(·,·)를 사용해 근사치를 학습한다. 6) 학습 데이터로 80K 비디오(OpenVid) 및 VidProM을 사용하고, Stage 1/2/3의 학습 단계 수는 각각 20K/5K/1K이다. 7) 4-step, 2-step, 1-step 설정에서의 성능 차이를 ablation으로 분석한다.

주요 결과

주요 벤치마크에서 CF++의 frame-wise 2-step가 기존 AR 증류를 능가한다. VBench Total은 84.14, Quality는 84.89로 4-step 칸형 방식 대비 최고치를 기록했다(다른 지표도 유사 수준으로 향상). first-frame latency는 50% 감소했고 Stage 2 비용은 약 4× 감소했다. 80K 비디오 규모에서 Stage 2 데이터 큐레이션 시간은 ∼2,900 GPU-hours, 추가 저장소는 0 GiB로 보고된다. Ablation 결과, 1-step/2-step/4-step 설정에서 causal CD Initialization은 causal ODE Initialization과 동등하거나 더 우수한 성능을 보였고, Causal DMD Initialization보다도 우수했다. action-conditioned world models로의 확장도 제시되며, Genie3 방식의 카메라 포즈 조건화를 통한 대화형 월드 모델 생성이 가능하다.

기술 상세

아키텍처: Stage 1 - AR diffusion teacher-forcing training; Stage 2 - causal CD 손실을 통한 AR teacher의 flow map 근사; Stage 3 - asymmetric DMD를 통해 self-rollout으로 학습된 스튜던트를 평가. 수학적 기초: Gθ(x_t, x_{<gt}, t) = x_t − t vθ(x_t, x_{<gt}, t)로 velocity를 예측하고, θ* = argmin E_{x,t,i}[ w(t) d( Gθ(x_t^i, x_{<gt}^i,t), G_{θ−}(x̂_t−Δt^i, x_{<gt}^i, t−Δt) ) ]을 최소화한다. 이때 fϕ는 AR 조건부 흐름 맵이며, x̂_t−Δt는 AR teacher의 한 번의 ODE 스텝으로 얻는다. 데이터 흐름은 Stage 1(teacher forcing AR diffusion training) → Stage 2(Causal CD) → Stage 3( asymmetric DMD with self-rollout)이며, 48 timesteps의 PF-ODE를 활용한 Stage 2의 온라인 학습과 Euler solver를 사용한다. 차이점: causal ODE initialization은 offline PF-ODE 트레이젝터를 필요로 하는 반면, causal CD는 real videos에서 인접 타임스텝만으로 학습하므로 데이터 저장 비용이 0에 가깝다. 결과적으로 per-step gap이 Δt로 줄어들어 최적화가 수월해진다.

실무 활용

실시간 인터랙티브 비디오 생성에 적합한 프레임-단위 2-step AR 증류를 제공하며, offline trajectory 저장 없이도 높은 품질의 AR 비디오를 생성한다. 또한 Genie3 스타일의 world models 확장이 가능하다.

실시간 스트리밍 아바타 생성
인터랙티브 게임 내 비디오 콘텐츠 생성
실시간 영상 편집 및 수정 도구
AR/VR 기반 실시간 월드 모델 시뮬레이션
제작 파이프라인의 대기 시간 감소

코드 공개 여부: 공개

코드 저장소 보기

키워드

autoregressive diffusioncausal consistency distillationcausal CDframe-wise-arfew-step AR initializationdiffusion distillationVBenchVisionRewardGenie3world model generation