RAVEN: Consistency-model GRPO를 활용한 Real-time Autoregressive Video Extrapolation

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

실시간 스트리밍 비디오 생성은 추론 시점의 히스토리 관리가 품질에 결정적이다. 기존 방법은 학습 시 히스토리 분포와 추론 시 분포 간 차이가 누적되어 긴 시퀀스에서 품질 저하를 유발한다. RAVEN은 self rollout을 clean endpoints와 noisy denoising states의 interleaved 시퀀스로 재구성해 히스토리 표현에 대한 감독을 강화하고, CM-GRPO를 도입해 추론 시의 샘플링 방식과 학습 시의 정책 업데이트를 일치시킴으로써 이러한 간극을 축소한다.

왜 중요한가

실시간 스트리밍 비디오 생성은 추론 시점의 히스토리 관리가 품질에 결정적이다. 기존 방법은 학습 시 히스토리 분포와 추론 시 분포 간 차이가 누적되어 긴 시퀀스에서 품질 저하를 유발한다. RAVEN은 self rollout을 clean endpoints와 noisy denoising states의 interleaved 시퀀스로 재구성해 히스토리 표현에 대한 감독을 강화하고, CM-GRPO를 도입해 추론 시의 샘플링 방식과 학습 시의 정책 업데이트를 일치시킴으로써 이러한 간극을 축소한다.

핵심 기여

Training-time test 프레임워크(RAVEN)

self rollouts를 interleaved한 clean historical endpoints와 noisy denoising states의 시퀀스로 재구성하여 추론 시 사용되는 history를 end-to-end 감독으로 연결한다.

Chunk-wise Loss Scaling

미래의 chunk들이 supervised되는 비율(p_j)에 따라 각 chunk의 손실을 다르게 가중해 초기에 빈번하게 발생하는 에러가 이후 예측에 덧씌워지는 현상을 완화한다.

Consistency-model Group Relative Policy Optimization(CM-GRPO)

일관성 샘플링 단계가 만들어내는 가우시안 전이에 정책 최적화를 직접 적용하여 Euler-Maruyama 보조 프로세스 없이도 추론에 맞는 정책 학습을 가능하게 한다.

RAVEN과 CM-GRPO의 상호 보완 효과

RAVEN이 히스토리 정합성을 개선하고 CM-GRPO가 일관성 샘플링에서의 정책 업데이트를 보강하여 네 가지 평가 지표에서 최신 baselines를 상회한다.

핵심 아이디어 이해하기

시작점: autoregressive video diffusion에서 각 생성 조각은 이후 예측에 의존하는 히스토리 캐시에 의존한다. 학습 시 히스토리 분포가 추론 시분포와 다르면 긴 호라이즌에서 누적 오차가 커진다. 기존 TF/Df/SF 방식은 히스토리 처리에 관한 end-to-end 감독이 부족하다.
해결 원리: RAVEN은 self rollout에서 얻은 각 조각의 clean endpoint(x̂_t)과 노이즈 상태(ẑ_t^(u))를 interleaved 시퀀스 I_u로 재구성하고, 이 시퀀스를 통해 later chunks가 동일한 history를 주의(attention)하게 보도록 한다. 이를 통해 이후 손실이 캐시된 히스토리 표현에 직접 영향을 미치도록 한다.
달라지는 점: chunk-wise loss scaling은 초기 꿈틀거리던 챙의 그래디언트가 중요한 부분에 더 많이 전달되도록 배열하고, CM-GRPO는 consistency 샘플러의 전이 커널에 정책 최적화를 적용해 추론 샘플링과 학습 시의 업데이트 구성을 일치시킨다.
기대 효과: 이 구성이 길어진 시퀀스에서도 구조적 일관성과 동적 특성을 유지하도록 돕고, baselines 대비 품질(Quality)과 의미적 일치(Semantic), 동적 정도(Dynamic Degree)에서 우수한 성능을 달성한다.

방법론

단락1: 문제 설정 및 배경. x1:T를 비디오 청크 시퀀스로 두고 조건 c를 이용한다. 히스토리 표현은 H(·)를 통해 캐시로 구현되며, 노이즈 수준 n에 따라 z_t^(n) = α_n x_t + σ_n ε를 정의한다. DF/SF의 역사 구성 방식과 한계를 요약한다. 단락2: RAVEN의 학습-타임 테스트 구성. self rollout에서 얻은 각 칸의 denoising trajectory를 ẑ^(τ_k)_t와 함께 x̂_t를 얻고, 이들을 interleaved 시퀀스 I_u = ẑ^(u)_1, x̂^1, ẑ^(u)2, x̂^2, ..., ẑ^(u)T, x̂^T로 재패킹한다. 이 시퀀스에서 noisy 상태는 denoise 타깃으로, 앞에 오는 clean 엔드포인트는 history 표현으로 사용된다. 이 구조로 각 chunk의 손실은 뒤따르는 chunk의 감독에 의해 히스토리 캐시로 전달된다. 단락3: Chunk-wise Loss Scaling. J개의 chunk에 대해 mj는 각 chunk의 요소 수, ℓ_j은 누적 손실이다. 미래 참여도 p_j = (∑{k=j}^J m_k)/(∑{k=1}^J m_k)로 정의하고 이를 g_η로 가중치화하여 w_j를 얻는다. L_chunk = ∑_j w_j ℓ_j / ∑j w_j m_j로 계산한다. 단락4: CM-GRPO의 온라인 RL. Consistency 샘플링에서 ζ^(u)에서 ζ^(s)로의 전이는 μ{u→s}^θ = α_s x̂^θ로 주어지며 z̃^(s) ∼ N(z̃^(s); μ, σ_s^2 I)이다. 그룹 표준화된 이점 Â_i로 각 트랜지션의 로그 확률을 정책으로 삼고, ∇_θ L_CM-GRPO가 엔드포인트 x̂^θ의 경사를 정확히 반영하도록 한다. DKL 정규화 항도 도출되나 현재 구현에서 x̂_ref를 샘플링하기 어렵기에 실용적 사용은 제한된다. 단락5: Reward 구성. 모션(DD), 품질(AQ/IQ), 텍스트-영상 정렬(TA) 등 다중 보상 항목을 조합하고 그룹 내 보상을 정규화한 뒤, 그룹 Relative Advantage를 이용해 학습 신호를 만들어 업데이트한다.

주요 결과

메인 벤치마크: Table 1에서 CausVid 83.01, LongLive 83.05, Rolling Forcing 83.25, Self Forcing 84.27, Reward Forcing 84.39, Causal Forcing 84.96 이고, + CM-GRPO 85.46, RAVEN 85.15, + CM-GRPO(RAVEN 합) 85.46으로 나타났다. RAVEN은 모든 차원에서 기존 baselines를 상회하며 특히 Dynamic Degree에서 큰 개선을 보였다. RAVEN+CM-GRPO 조합은 모든 지표에서 최상위를 차지한다.
어블레이션(Training-time Test): TF는 모션이 가장 좋고, SF는 의미적 정합이 우수하나 모션은 낮다. DF w/ Self Rollout은 모션이 회복되지만 품질/의미가 저하된다. RAVEN은 총점에서 선두를 차지하고 모션은 TF에 근접하게 유지한다. CM-GRPO를 Causal Forcing에 더하면 모션에서 더 큰 향상을 보이고, RAVEN+CM-GRPO는 모든 축에서 최고치를 기록한다.
Chunk-wise Loss Scaling: α = −1(Shift, Ours) 설정이 총점 85.15로 가장 높고, Sem/Qual/Dyn의 균형도 양호하다. 가중치 프로파일이 가운데에 편향될수록 총점이 감소하는 경향이 있으며, 초기 Chunk의 상대적 기여를 강조하는 설정이 가장 효율적이다.
Reward 구성: 각 차원을 조정한 여러 구성 중, RAVEN+CM-GRPO 조합이 총점 85.46으로 최고치를 달성한다. DD(Dynamic Degree) 항이 모션 제어에 주요 기여를 하며 AQ/IQ의 증가가 의미 정합성을 향상시킨다. 이 구성은 모션과 의미의 균형을 유지하면서 전체 점수를 최대화한다.
Consistency 정책의 효과: EM(오일러-마유미) 기반 방법과 비교해 CM-GRPO가 총점/퀄리티/동적지표에서 우월한 성능을 보이며, 보상 설계에 따른 변화도 CM-GRPO의 이점을 강화한다. CM-GRPO는 추론 샘플링과 일치하는 정책 인터페이스를 통해 학습을 안정화한다.

기술 상세

단락1: 아키텍처 구성. x1:T, c, H(·) 등 사용. History 표현은 KV 캐시를 통해 관리되며, z_t^(n) = α_n x_t + σ_n ϵ로 노이즈를 주입한다. History 형성은 DF/SF와 차이를 보이며, RAVEN은 학습-추론 간의 정합을 목표로 한다. 단락2: 핵심 메커니즘. fake-score 단계에서 크리틱과 제너레이터가 상호 작용하고, generator step에서 I_u를 구성해 학습한다. 단락3: Prior work 대비 차별점. 기존 Diffusion Forcing, Self Forcing는 히스토리 캐시를 end-to-end로 감독하지 못한 반면, RAVEN은 히스토리의 시퀀스를 직접 supervise한다. 단락4: 구현/학습 디테일. Chunk-wise Loss Scaling, CM-GRPO의 구현상 수식 및 업데이트 규칙과 보상 구성을 제시한다.

실무 활용

RAVEN과 CM-GRPO의 조합은 실시간 비디오 생성 파이프라인에서 품질과 동적 특성을 개선하고 추론-학습 간의 간극을 줄인다. 이로써 길어지는 영상에서도 구조적 일관성과 시각적 품질을 유지할 수 있다.

실시간 비디오 스트리밍 서비스의 품질 강화
인터랙티브 시뮬레이션 및 영화 예고편 생성
실시간 프리뷰 시스템에서의 길이 확장 비디오 생성
영화/게임 제작에서의 빠른 AI 기반 비주얼 프리비주얼링

코드 공개 여부: 공개

코드 저장소 보기

키워드

causal autoregressive video diffusion models(인과적 자기회귀 비디오 확산 모델)real-time streaming generation(실시간 스트리밍 생성)video extrapolation(비디오 외삽)distillation(증류)consistency models(일관성 모델)reinforcement learning(강화학습)Gaussian transition(가우시안 전이)Euler-Maruyama(오일러-마유미) 보조 프로세스