핵심 요약
대규모 비디오 생성 모델의 추론 속도를 획기적으로 개선하면서도 고품질 결과물을 유지할 수 있는 새로운 프레임워크를 제시합니다. 기존 LLM에서 사용되던 Speculative Decoding 기법을 연속적인 데이터인 비디오 영역에 성공적으로 이식하여 실시간 스트리밍 비디오 서비스의 가능성을 열었습니다.
왜 중요한가
대규모 비디오 생성 모델의 추론 속도를 획기적으로 개선하면서도 고품질 결과물을 유지할 수 있는 새로운 프레임워크를 제시합니다. 기존 LLM에서 사용되던 Speculative Decoding 기법을 연속적인 데이터인 비디오 영역에 성공적으로 이식하여 실시간 스트리밍 비디오 서비스의 가능성을 열었습니다.
핵심 기여
SDVG 프레임워크 제안
자기회귀 비디오 확산 모델을 위한 훈련이 필요 없는(Training-free) 투기적 디코딩 프레임워크를 도입하여 아키텍처 변경 없이 기존 파이프라인에 즉시 통합 가능함.
이미지 품질 기반 라우팅 메커니즘
토큰 확률 비교가 불가능한 비디오의 특성을 고려하여 ImageReward 점수를 활용해 초안 블록의 수락 여부를 결정하는 품질 기반 라우터를 설계함.
최악 프레임 집계 방식 도입
블록 내 프레임들의 평균 점수 대신 최솟값을 사용하는 Worst-frame aggregation을 통해 단일 프레임에서 발생하는 시각적 결함을 효과적으로 탐지함.
핵심 아이디어 이해하기
기존의 비디오 생성 모델은 모든 프레임을 한꺼번에 계산하거나, Transformer 구조를 통해 블록 단위로 순차 생성한다. 하지만 고품질 비디오를 위해 10B 이상의 거대 모델을 사용하면 연산량이 너무 많아 실시간 처리가 어렵다는 한계가 있다. LLM에서는 이를 해결하기 위해 작은 모델이 먼저 예측하고 큰 모델이 검증하는 Speculative Decoding을 쓰지만, 비디오는 텍스트와 달리 연속적인 수치 데이터(Tensor)여서 정답 확률을 비교하기 어렵다.
SDVG는 이 문제를 해결하기 위해 '확률' 대신 '시각적 품질 점수'를 검증 기준으로 삼는다. 1.3B 규모의 작은 Drafter 모델이 비디오 블록 후보를 빠르게 생성하면, ImageReward라는 별도의 평가 모델이 이 후보의 품질을 검사한다. 이때 특정 기준치(Threshold)를 넘기면 작은 모델의 결과를 그대로 채택하고, 미달할 경우에만 14B Target 모델이 다시 생성하는 방식으로 동작한다.
결과적으로 품질이 보장되는 구간에서는 가벼운 모델의 속도를 누리고, 복잡한 묘사가 필요한 구간에서만 무거운 모델을 호출함으로써 전체적인 생성 속도를 비약적으로 높이면서도 최종 영상의 품질 저하를 최소화한다.
방법론
SDVG의 추론 흐름은 Drafter(D)가 S번의 Denoising 단계를 거쳐 후보 블록 x_b를 생성하는 것으로 시작한다. 생성된 후보는 VAE를 통해 디코딩된 후 Reward Router에 의해 평가된다. 이때 첫 번째 블록(Block 0)은 전체 장면의 구도와 스타일을 결정하는 앵커 역할을 하므로 품질 보장을 위해 항상 Target 모델이 생성하도록 강제(Force-reject)한다.
품질 평가는 Worst-frame aggregation 방식을 사용한다. 블록 내 F개의 프레임에 대해 각각 ImageReward 점수 R(f, p)를 계산한 뒤, 그중 최솟값 q_b = min(R)을 산출한다. [각 프레임의 품질 점수 입력 → min 연산 수행 → 블록 전체를 대표하는 최하위 품질 점수 출력] 이 점수가 사전에 설정된 임계값 τ보다 크거나 같으면 Drafter의 출력을 수락하여 KV Cache에 저장하고, 작으면 Target 모델이 동일한 노이즈에서 다시 생성한다.
구현 측면에서는 두 개의 NVIDIA RTX A6000 GPU를 사용하며, GPU 0은 확산 모델(Target/Drafter)을, GPU 1은 Text Encoder와 VAE, ImageReward 모델을 담당한다. CUDA 스트림을 활용해 장치 간 데이터 전송과 연산을 오버랩시켜 보상 계산으로 인한 지연 시간을 최소화한다.
관련 Figure

Drafter가 생성한 블록이 VAE 디코딩과 ImageReward 평가를 거쳐 수락(Accept) 또는 거절(Reject)되는 과정을 보여줍니다. 특히 첫 번째 블록(Block 0)이 항상 Target 모델로 전달되어 장면 구도를 고정하는 핵심 메커니즘이 잘 묘사되어 있습니다.
SDVG의 전체 인퍼런스 파이프라인 다이어그램
주요 결과
1003개의 MovieGen VideoBench 프롬프트를 대상으로 실험한 결과, SDVG는 Target 모델 단독 실행 대비 1.59배의 속도 향상을 기록하면서도 VisionReward 기준 품질의 98.1%를 유지했다(0.0773 vs 0.0788). 임계값 τ를 -2.5까지 낮출 경우 최대 2.09배의 속도 향상을 달성하며 품질은 95.7% 수준을 유지하는 것으로 나타났다.
Ablation Study를 통해 Worst-frame aggregation의 효과를 입증했다. 평균 점수(Avg-frame)를 사용할 경우 단일 프레임의 결함을 잡아내지 못해 시각적 깜빡임(Flickering)이 발생하며, 동일한 수락률에서 VisionReward 점수가 더 낮게 측정되었다. 또한 무작위 라우팅(Random routing)과 비교했을 때 SDVG의 보상 기반 라우팅이 훨씬 높은 품질 효율성을 보임을 확인했다.
관련 Figure

SDVG가 Draft-only와 Target-only 사이에서 품질을 최대한 유지하며 속도를 높이는 효율적인 지점에 위치함을 보여줍니다. 1.59배 속도 향상 지점에서 Target 모델과 거의 대등한 품질 점수를 기록하고 있음을 시각적으로 확인할 수 있습니다.
비디오 생성 시간 대비 VisionReward 점수를 나타낸 파레토 곡선
기술 상세
SDVG는 Wan2.1 아키텍처를 기반으로 하며, 14B Target 모델(Krea Realtime Video)과 1.3B Drafter 모델을 쌍으로 사용한다. 두 모델은 동일한 Causal Attention 백본과 RoPE 위치 임베딩을 공유하며, 블록당 4단계의 Denoising 과정을 거친다. 비디오 블록은 3개의 잠재 프레임(Latent frames)으로 구성되며, VAE 디코딩을 통해 최종적으로 9~12개의 픽셀 프레임으로 변환된다.
기술적 차별점은 토큰 기반의 Rejection Sampling 대신 연속적인 도메인에 적합한 Reward-guided Routing을 도입했다는 점이다. 특히 거절된 블록에 대해 VAE 디코딩 캐시를 복구(Restore)하는 메커니즘을 통해 블록 간의 시간적 일관성(Temporal consistency)을 보존한다. 또한 임계값 τ 하나만으로 품질-속도 파레토 최적 전선(Pareto frontier)을 매끄럽게 조절할 수 있는 단순성을 확보했다.
한계점
Drafter 모델의 분포로 편향되는 Distributional bias가 발생할 수 있으며, ImageReward가 텍스트-이미지 쌍으로 학습되어 비디오의 핵심인 시간적 일관성이나 움직임의 품질을 직접 평가하지 못한다는 한계가 있습니다. 또한 거절된 블록의 경우 Drafter의 연산량이 낭비되는 문제가 존재합니다.
실무 활용
추가 학습 없이 기존의 자기회귀 비디오 생성 파이프라인에 즉시 적용하여 추론 비용을 절감하고 속도를 높일 수 있습니다.
- 실시간 스트리밍 비디오 생성 서비스의 서버 비용 절감
- 고성능 GPU 자원이 제한된 환경에서의 대규모 비디오 모델 실행
- 품질과 속도 사이의 유연한 조절이 필요한 대화형 비디오 편집 도구
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.