핵심 요약
기존 멀티샷 비디오 생성 모델은 전체 시나리오를 미리 확정해야 하고 생성 속도가 매우 느려 실시간 상호작용이 불가능했습니다. ShotStream은 이를 '다음 장면 생성' 문제로 재정의하고 효율적인 캐싱 구조를 도입하여, 사용자가 실시간으로 이야기를 이끌어갈 수 있는 16 FPS의 빠른 생성 환경을 제공합니다.
왜 중요한가
기존 멀티샷 비디오 생성 모델은 전체 시나리오를 미리 확정해야 하고 생성 속도가 매우 느려 실시간 상호작용이 불가능했습니다. ShotStream은 이를 '다음 장면 생성' 문제로 재정의하고 효율적인 캐싱 구조를 도입하여, 사용자가 실시간으로 이야기를 이끌어갈 수 있는 16 FPS의 빠른 생성 환경을 제공합니다.
핵심 기여
인과적 멀티샷 비디오 생성 아키텍처
멀티샷 비디오 생성을 이전 샷의 문맥에 기반한 '다음 샷 생성' 작업으로 재정의하여 실시간 스트리밍 프롬프트 입력을 지원함.
이중 캐시 메모리 메커니즘
장면 간 일관성을 위한 글로벌 컨텍스트 캐시와 장면 내 연속성을 위한 로컬 컨텍스트 캐시를 분리 운영하여 시각적 일관성을 유지함.
2단계 점진적 증류 전략
Intra-shot 및 Inter-shot 셀프 포싱(Self-forcing)을 통해 학습과 추론 사이의 간극을 줄이고 자동 회귀 생성 시 발생하는 오류 누적 문제를 해결함.
실시간 추론 성능 달성
단일 NVIDIA H200 GPU에서 16 FPS의 속도를 달성하면서도 기존의 느린 양방향 모델과 대등하거나 더 우수한 시각적 품질을 제공함.
핵심 아이디어 이해하기
기존 비디오 생성은 전체 시퀀스를 한꺼번에 처리하는 양방향(Bidirectional) Attention을 주로 사용합니다. 이는 문맥이 길어질수록 연산량이 시퀀스 길이의 제곱으로 늘어나고, 중간에 내용을 수정하기 어렵다는 한계가 있습니다.
ShotStream은 이를 해결하기 위해 Transformer의 인과적(Causal) 구조를 활용하여 비디오를 '샷(Shot)' 단위로 순차 생성합니다. 마치 언어 모델이 다음 단어를 예측하듯, 이전 장면들의 핵심 정보를 요약해 들고 있으면서 다음 장면을 그려내는 방식입니다.
이 과정에서 과거의 모든 프레임을 기억하는 대신, 중요한 프레임만 골라내는 '희소 샘플링(Sparse Sampling)'과 이를 효율적으로 저장하는 '이중 캐시'를 사용하여 메모리 부하를 줄이면서도 일관성을 유지합니다.
방법론
전체 구조는 Wan2.1-T2V-1.3B 모델을 기반으로 하며, 양방향 교사 모델을 4단계 추론이 가능한 인과적 학생 모델로 증류(Distillation)합니다.
이중 캐시 메커니즘은 글로벌 캐시와 로컬 캐시로 구성됩니다. [입력 프레임 → 캐시 저장 및 RoPE 적용 → Attention 연산 → 일관된 다음 프레임 생성] 순으로 작동하며, 글로벌 캐시는 이전 샷들에서 샘플링된 프레임을 저장하여 캐릭터나 배경의 일관성을 담당하고, 로컬 캐시는 현재 생성 중인 샷의 이전 프레임들을 저장하여 움직임의 자연스러움을 담당합니다.
RoPE 불연속성 지표는 글로벌 캐시와 로컬 캐시 사이의 시간적 경계를 명확히 하기 위해 도입되었습니다. [현재 시점 t와 샷 번호 k 입력 → Θt = ϕt + kθ 계산 → 시간적 단절 부여 → 캐시 간 혼동 방지] 과정을 통해 모델이 역사적 문맥과 현재 장면의 문맥을 명확히 구분하게 합니다.
2단계 증류 전략은 오류 누적을 방지합니다. 1단계에서는 정답 데이터를 기반으로 장면 내 생성을 학습하고, 2단계에서는 모델이 직접 생성한 과거 데이터를 기반으로 장면 간 생성을 학습하여 학습과 추론 시점의 데이터 분포 차이를 정렬합니다.
주요 결과
ShotStream은 단일 H200 GPU에서 15.95 FPS를 기록하며, 기존 양방향 모델(Mask2DiT 0.149 FPS, EchoShot 0.643 FPS) 대비 25배 이상의 처리량 향상을 보였습니다.
정량적 평가에서 장면 내 일관성(Sub. 0.825, Bg. 0.819)과 장면 전환 제어(0.978) 등 주요 지표에서 SOTA 성능을 달성했습니다. 특히 장면 전환의 정확도를 측정하는 SCA 지표에서 타 모델 대비 압도적인 성능을 보였습니다.
사용자 평가 결과, 시각적 일관성(87.69%), 프롬프트 준수(76.15%), 시각적 품질(83.08%) 모든 면에서 기존 모델들을 압도하는 선호도를 기록했습니다.
기술 상세
모델 아키텍처는 DiT(Diffusion Transformer) 기반이며, 3D 공간-시간 Attention 레이어만 미세 조정하여 파라미터 효율성을 높였습니다. DMD(Distribution Matching Distillation)를 사용하여 50단계 이상의 확산 공정을 4단계로 압축하면서도 품질 저하를 최소화했습니다.
희소 컨텍스트 샘플링 전략을 통해 최대 6개의 프레임만으로 과거의 방대한 정보를 요약하여 컨텍스트 윈도우를 효율적으로 관리합니다. 이는 메모리 사용량을 획기적으로 줄이면서도 장기적인 일관성을 유지하는 핵심 기법입니다.
학습 시 Self-forcing 기법을 도입하여, 추론 시 자신이 생성한 불안정한 데이터를 입력받았을 때 발생하는 노이즈 증폭 문제를 완화했습니다. 이는 자동 회귀 생성 모델의 고질적인 문제인 노출 편향(Exposure Bias)을 해결하는 데 기여합니다.
한계점
장면과 텍스트 프롬프트가 매우 복잡할 경우 시각적 아티팩트나 일관성 결여가 발생할 수 있으며, 이는 백본 모델의 용량 제한에서 기인합니다.
실무 활용
실시간으로 프롬프트를 입력하며 비디오 내용을 바꿀 수 있어 게임, 대화형 영화, 실시간 콘텐츠 제작에 즉시 활용 가능합니다.
- 사용자 입력에 따라 전개가 바뀌는 인터랙티브 스토리텔링 게임
- 실시간으로 캐릭터나 화풍을 변경하며 제작하는 애니메이션 워크플로우
- 긴 서사를 가진 홍보 영상을 샷 단위로 세밀하게 조정하며 생성
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.