TL;DR
실시간 스트리밍 비디오 생성은 추론 시점의 히스토리 관리가 품질에 결정적이다. 기존 방법은 학습 시 히스토리 분포와 추론 시 분포 간 차이가 누적되어 긴 시퀀스에서 품질 저하를 유발한다. RAVEN은 self rollout을 clean endpoints와 noisy denoising states의 interleaved 시퀀스로 재구성해 히스토리 표현에 대한 감독을 강화하고, CM-GRPO를 도입해 추론 시의 샘플링 방식과 학습 시의 정책 업데이트를 일치시킴으로써 이러한 간극을 축소한다.
왜 중요한가
실시간 스트리밍 비디오 생성은 추론 시점의 히스토리 관리가 품질에 결정적이다. 기존 방법은 학습 시 히스토리 분포와 추론 시 분포 간 차이가 누적되어 긴 시퀀스에서 품질 저하를 유발한다. RAVEN은 self rollout을 clean endpoints와 noisy denoising states의 interleaved 시퀀스로 재구성해 히스토리 표현에 대한 감독을 강화하고, CM-GRPO를 도입해 추론 시의 샘플링 방식과 학습 시의 정책 업데이트를 일치시킴으로써 이러한 간극을 축소한다.
핵심 기여
Training-time test 프레임워크(RAVEN)
self rollouts를 interleaved한 clean historical endpoints와 noisy denoising states의 시퀀스로 재구성하여 추론 시 사용되는 history를 end-to-end 감독으로 연결한다.
Chunk-wise Loss Scaling
미래의 chunk들이 supervised되는 비율(p_j)에 따라 각 chunk의 손실을 다르게 가중해 초기에 빈번하게 발생하는 에러가 이후 예측에 덧씌워지는 현상을 완화한다.
Consistency-model Group Relative Policy Optimization(CM-GRPO)
일관성 샘플링 단계가 만들어내는 가우시안 전이에 정책 최적화를 직접 적용하여 Euler-Maruyama 보조 프로세스 없이도 추론에 맞는 정책 학습을 가능하게 한다.
RAVEN과 CM-GRPO의 상호 보완 효과
RAVEN이 히스토리 정합성을 개선하고 CM-GRPO가 일관성 샘플링에서의 정책 업데이트를 보강하여 네 가지 평가 지표에서 최신 baselines를 상회한다.
핵심 아이디어 이해하기
- 시작점: autoregressive video diffusion에서 각 생성 조각은 이후 예측에 의존하는 히스토리 캐시에 의존한다. 학습 시 히스토리 분포가 추론 시분포와 다르면 긴 호라이즌에서 누적 오차가 커진다. 기존 TF/Df/SF 방식은 히스토리 처리에 관한 end-to-end 감독이 부족하다.
- 해결 원리: RAVEN은 self rollout에서 얻은 각 조각의 clean endpoint(x̂_t)과 노이즈 상태(ẑ_t^(u))를 interleaved 시퀀스 I_u로 재구성하고, 이 시퀀스를 통해 later chunks가 동일한 history를 주의(attention)하게 보도록 한다. 이를 통해 이후 손실이 캐시된 히스토리 표현에 직접 영향을 미치도록 한다.
- 달라지는 점: chunk-wise loss scaling은 초기 꿈틀거리던 챙의 그래디언트가 중요한 부분에 더 많이 전달되도록 배열하고, CM-GRPO는 consistency 샘플러의 전이 커널에 정책 최적화를 적용해 추론 샘플링과 학습 시의 업데이트 구성을 일치시킨다.
- 기대 효과: 이 구성이 길어진 시퀀스에서도 구조적 일관성과 동적 특성을 유지하도록 돕고, baselines 대비 품질(Quality)과 의미적 일치(Semantic), 동적 정도(Dynamic Degree)에서 우수한 성능을 달성한다.
방법론
단락1: 문제 설정 및 배경. x1:T를 비디오 청크 시퀀스로 두고 조건 c를 이용한다. 히스토리 표현은 H(·)를 통해 캐시로 구현되며, 노이즈 수준 n에 따라 z_t^(n) = α_n x_t + σ_n ε를 정의한다. DF/SF의 역사 구성 방식과 한계를 요약한다. 단락2: RAVEN의 학습-타임 테스트 구성. self rollout에서 얻은 각 칸의 denoising trajectory를 ẑ^(τ_k)_t와 함께 x̂_t를 얻고, 이들을 interleaved 시퀀스 I_u = ẑ^(u)_1, x̂^1, ẑ^(u)2, x̂^2, ..., ẑ^(u)T, x̂^T로 재패킹한다. 이 시퀀스에서 noisy 상태는 denoise 타깃으로, 앞에 오는 clean 엔드포인트는 history 표현으로 사용된다. 이 구조로 각 chunk의 손실은 뒤따르는 chunk의 감독에 의해 히스토리 캐시로 전달된다. 단락3: Chunk-wise Loss Scaling. J개의 chunk에 대해 mj는 각 chunk의 요소 수, ℓ_j은 누적 손실이다. 미래 참여도 p_j = (∑{k=j}^J m_k)/(∑{k=1}^J m_k)로 정의하고 이를 g_η로 가중치화하여 w_j를 얻는다. L_chunk = ∑_j w_j ℓ_j / ∑j w_j m_j로 계산한다. 단락4: CM-GRPO의 온라인 RL. Consistency 샘플링에서 ζ^(u)에서 ζ^(s)로의 전이는 μ{u→s}^θ = α_s x̂^θ로 주어지며 z̃^(s) ∼ N(z̃^(s); μ, σ_s^2 I)이다. 그룹 표준화된 이점 Â_i로 각 트랜지션의 로그 확률을 정책으로 삼고, ∇_θ L_CM-GRPO가 엔드포인트 x̂^θ의 경사를 정확히 반영하도록 한다. DKL 정규화 항도 도출되나 현재 구현에서 x̂_ref를 샘플링하기 어렵기에 실용적 사용은 제한된다. 단락5: Reward 구성. 모션(DD), 품질(AQ/IQ), 텍스트-영상 정렬(TA) 등 다중 보상 항목을 조합하고 그룹 내 보상을 정규화한 뒤, 그룹 Relative Advantage를 이용해 학습 신호를 만들어 업데이트한다.
관련 Figure

RAVEN의 시퀀스 재패킹과 어텐션 구성은 training-time과 inference-time의 차이를 줄이고, 히스토리 캐시의 업데이트를 견고하게 만든다.
Figure 1은 Teacher Forcing, Diffusion Forcing, Self Forcing, RAVEN의 어텐션 마스크 구성을 비교한다.

I_u 구성과 두 단계의 피드백 루프를 통해 히스토리 캐시가 추론 시 사용되는 방식이 명확해진다.
Figure 2는 RAVEN의 학습 파이프라인을 구성하는 Self Rollout, Fake-Score Step, Generator Step의 흐름을 보여준다.
주요 결과
- 메인 벤치마크: Table 1에서 CausVid 83.01, LongLive 83.05, Rolling Forcing 83.25, Self Forcing 84.27, Reward Forcing 84.39, Causal Forcing 84.96 이고, + CM-GRPO 85.46, RAVEN 85.15, + CM-GRPO(RAVEN 합) 85.46으로 나타났다. RAVEN은 모든 차원에서 기존 baselines를 상회하며 특히 Dynamic Degree에서 큰 개선을 보였다. RAVEN+CM-GRPO 조합은 모든 지표에서 최상위를 차지한다.
- 어블레이션(Training-time Test): TF는 모션이 가장 좋고, SF는 의미적 정합이 우수하나 모션은 낮다. DF w/ Self Rollout은 모션이 회복되지만 품질/의미가 저하된다. RAVEN은 총점에서 선두를 차지하고 모션은 TF에 근접하게 유지한다. CM-GRPO를 Causal Forcing에 더하면 모션에서 더 큰 향상을 보이고, RAVEN+CM-GRPO는 모든 축에서 최고치를 기록한다.
- Chunk-wise Loss Scaling: α = −1(Shift, Ours) 설정이 총점 85.15로 가장 높고, Sem/Qual/Dyn의 균형도 양호하다. 가중치 프로파일이 가운데에 편향될수록 총점이 감소하는 경향이 있으며, 초기 Chunk의 상대적 기여를 강조하는 설정이 가장 효율적이다.
- Reward 구성: 각 차원을 조정한 여러 구성 중, RAVEN+CM-GRPO 조합이 총점 85.46으로 최고치를 달성한다. DD(Dynamic Degree) 항이 모션 제어에 주요 기여를 하며 AQ/IQ의 증가가 의미 정합성을 향상시킨다. 이 구성은 모션과 의미의 균형을 유지하면서 전체 점수를 최대화한다.
- Consistency 정책의 효과: EM(오일러-마유미) 기반 방법과 비교해 CM-GRPO가 총점/퀄리티/동적지표에서 우월한 성능을 보이며, 보상 설계에 따른 변화도 CM-GRPO의 이점을 강화한다. CM-GRPO는 추론 샘플링과 일치하는 정책 인터페이스를 통해 학습을 안정화한다.
관련 Figure

RAVEN+CM-GRPO 조합이 구조적 왜곡과 색상 과다를 줄이고 일관된.mov와 색감을 유지하는 경향을 나타낸다.
Figure 3은 Qualitative 비교 결과의 하이라이트를 시각적으로 보여준다.

사용자 평가에서도 RAVEN이 baselines보다 선호도가 높음을 시각적으로 확인할 수 있다.
Figure 4는 Training-time Test의 qualitative ablation 및 user study 페이지를 보여준다.
기술 상세
단락1: 아키텍처 구성. x1:T, c, H(·) 등 사용. History 표현은 KV 캐시를 통해 관리되며, z_t^(n) = α_n x_t + σ_n ϵ로 노이즈를 주입한다. History 형성은 DF/SF와 차이를 보이며, RAVEN은 학습-추론 간의 정합을 목표로 한다. 단락2: 핵심 메커니즘. fake-score 단계에서 크리틱과 제너레이터가 상호 작용하고, generator step에서 I_u를 구성해 학습한다. 단락3: Prior work 대비 차별점. 기존 Diffusion Forcing, Self Forcing는 히스토리 캐시를 end-to-end로 감독하지 못한 반면, RAVEN은 히스토리의 시퀀스를 직접 supervise한다. 단락4: 구현/학습 디테일. Chunk-wise Loss Scaling, CM-GRPO의 구현상 수식 및 업데이트 규칙과 보상 구성을 제시한다.
실무 활용
RAVEN과 CM-GRPO의 조합은 실시간 비디오 생성 파이프라인에서 품질과 동적 특성을 개선하고 추론-학습 간의 간극을 줄인다. 이로써 길어지는 영상에서도 구조적 일관성과 시각적 품질을 유지할 수 있다.
- 실시간 비디오 스트리밍 서비스의 품질 강화
- 인터랙티브 시뮬레이션 및 영화 예고편 생성
- 실시간 프리뷰 시스템에서의 길이 확장 비디오 생성
- 영화/게임 제작에서의 빠른 AI 기반 비주얼 프리비주얼링
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.