TL;DR
카메라 움직임은 인터랙티브 비디오 생성을 좌우하는 주된 제어 신호이다. 기존 방법은 카메라 전용 엔코더나 추가 모듈에 의존하거나, 테스트-타임 최적화가 필요하다. Warp-as-History는 프리트레이닝된 history-conditioned 비디오 생성 모델의 기존 히스토리 인터페이스를 활용해 타깃 카메라 궤적을 camera-warped pseudo-history로 변환하고, 타깃 프레임 위치에 맞춰 정렬하며 가시 토큰 선정을 통해 불완전한 워프를 보완한다. 이 방식은 훈련 없이도 제로샷으로 카메라 팔로우를 유발하며, 단 하나의 카메라 주석 비디오를 이용한 LoRA 파인튜닝으로 unseen 비디오에 일반화하고 품질을 향상시킨다.
왜 중요한가
카메라 움직임은 인터랙티브 비디오 생성을 좌우하는 주된 제어 신호이다. 기존 방법은 카메라 전용 엔코더나 추가 모듈에 의존하거나, 테스트-타임 최적화가 필요하다. Warp-as-History는 프리트레이닝된 history-conditioned 비디오 생성 모델의 기존 히스토리 인터페이스를 활용해 타깃 카메라 궤적을 camera-warped pseudo-history로 변환하고, 타깃 프레임 위치에 맞춰 정렬하며 가시 토큰 선정을 통해 불완전한 워프를 보완한다. 이 방식은 훈련 없이도 제로샷으로 카메라 팔로우를 유발하며, 단 하나의 카메라 주석 비디오를 이용한 LoRA 파인튜닝으로 unseen 비디오에 일반화하고 품질을 향상시킨다.
핵심 기여
Warp-as-History의 제로샷 카메라 팔로우 익히기
타깃 카메라 궤적을 camera-warped pseudo-history로 변환하고, target-frame positional alignment 및 visible-token selection을 적용해 프리트레이닝된 history-conditioning 비디오 생성 모델의 히스토리 채널에서 카메라 모션 신호를 읽히게 한다. 제로샷에서 카메라-follow가 나타나며, 이는 freeze된 모델의 native history pathway를 통해 관찰된다.
한 편의 비디오로 LoRA 파인튜닝으로 안정화
한 편의 카메라-주석 비디오에서 offline LoRA 파인튜닝을 수행해 warp 증거와 모델의 생성 priors 간의 균형을 조정한다. 이 업데이트는 테스트-타임 최적화 없이도 보기 좋은 품질과 일관된 카메라 행동을 보이고 unseen 비디오에 일반화된다.
워프-히스토리 인터페이스의 효과적 적용
Warp를 기존 히스토리 스트림에 들어가도록 하고, warp 토큰의 시간 위치를 타깃 프레임의 RoPE 인덱스와 일치시켜 타깃 프레임 위치와의 정렬을 달성한다. 또한 MC(워프 유효성 마스크)를 이용한 visible-token selection으로 불완전한 워프 영역을 제거하고, 남은 영역만 카메라 모션 신호로 활용한다.
대규모 훈련 없이도 강력한 벤치마크 수행
WorldScore, RE10K, DAVIS에서 제로샷/원샷 설정의 퍼포먼스를 비교한다. Ours(zero-shot)에서 Avg 카메라 제어 63.26, Ours(one-shot)에서 65.64를 달성하고, 주목 가능한 시각 품질 증가를 보인다. 또한 33프레임 월드스코어 벤치에서 카메라 제어가 텍스트-전용 기준보다 크게 향상된다.
핵심 아이디어 이해하기
출발점: history-conditioned 비디오 생성 모델은 과거 프레임을 시각적 맥락으로 사용해 미래 프레임을 예측한다. 본 논문은 camera-induced 기하학적 신호를 새로운 조정 입력으로 만들지 않고, warp를 history로 주입하되 target-frame 위치와의 정렬 및 불완전한 영역의 보정에 집중한다. 결과적으로 프리트레이닝된 모델의 내재적 카메라 팔로우 prior를 노출시키고, 이를 LoRA 파인튜닝으로 안정화한다.
방법론
전체 흐름:
- 타깃 카메라 궤적 C=(c1,...,cT)를 정의한다.
- 카메라-유도 워프 WC를 생성하고, 이를 2D 워프 비디오로 투사한다.
- 워프를 히스토리로 입력하기 위해 H˜Ct = SMC(H(WC))로 처리한다. MC는 warp의 유효성 마스크이며, SMC는 가시 토큰 선정을 적용한다.
- 타깃 프레임 위치 정렬을 위해 warp 토큰에 타깃 토픽의 RoPE 인덱스를 매핑한다.
- warp 토큰을 원래의 history와 함께 입력하고, 불완전 영역은 제거하여 디노이즈-보정 없이도 카메라 모션 신호를 활용한다.
- X̂t:t+K ∼ pθ(· | Ht, H̃Ct, p)로 미래 프레임을 샘플링한다.
- LoRA 파인튜닝은 첫 번째 해상도(Hellios의 stage0)에서만 수행하고, 사전 학습된 역사 리더의 균형을 warp 증거와 생성 prior 사이에서 조정한다. 파인튜닝은 약 1000 iterations로 이루어지며, 하나의 영상으로 일반화한다.
관련 Figure

타깃 카메라 궤적을 history로 변환하고, target-frame 위치와 가시 토큰 선택을 적용하는 워프-히스토리 conditioning의 핵심 아이디어를 보여준다.
Warp-as-History의 개념 흐름을 시각적으로 요약한 도식.

H̃Ct의 생성과 Ht의 입력이 합쳐지는 흐름을 보여주며, warp-히스토리가 native history에 들어가 어떻게 작동하는지 설명한다.
카메라 모션으로 비디오 확산 모델을 조건화하는 흐름도

다양한 인터페이스 설정의 성능 차이를 시각화하여, Full 인터페이스가 Zero-shot에서의 카메라 팔로우를 어떻게 개선하는지 보여준다.
Zero-shot 인터페이스에 대한 아블레이션 비교
주요 결과
주요 결과:
- WorldScore: Ours(zero-shot) Avg=63.26, Camera Control=61.32, Isolated Quality=47.37; Ours(one-shot) Avg=65.64, Camera Control=62.00, Isolated Quality=54.83. Helios-Distilled(텍스트-전용)보다 카메라 제어에서 큰 개선을 보였고, 온라인 벤치마크에서 SOTA 카메라 제어 베이스라인과 비교 가능했다.
- 33프레임 DAVIS: Ours(one-shot) PSNR=15.21, SSIM=0.3976, LPIPS=0.3794, VisLPIPS=0.2236, R-Err=2.97, T-Err=0.0942, DOVER=0.714, FID=68.18, FVD=57.95.
- RE10K: Ours(one-shot) PSNR=17.15, SSIM=0.6214, LPIPS=0.2343, VisLPIPS=0.1426, R-Err=1.28, T-Err=0.0454, DOVER=0.980, FID=65.97, FVD=, 0.980 등. 외부 baselines Gen3C/Voyager/ViewCrafter과 비교했을 때 카메라 팔로우 및 시각적 품질에서 유사 또는 우수한 성능을 달성한다.
관련 Figure

제로샷 Warp-as-History가 프리트레이닝 모델의 히스토리 인터페이스를 통해 카메라 모션을 추적하는지 확인하는 시각적 증거를 제공한다.
제로샷 history conditioning에서 원-샷 파인튜닝으로의 전이 과정을 보여주는 그림
기술 상세
아키텍처: Helios 백본의 히스토리 조건화 경로를 재활용한다. Warp-히스토리 H˜Ct는 히스토리 구성자 H에 WC의 워프를 입력한 뒤 MC를 적용해 가시 토큰만 남긴다. RoPE 정렬을 통해 warp 토큰의 타깃 프레임 위치를 현재 프레임의 인덱스에 맞춘다. X̂t:t+K ∼ pθ(· | Ht, H̃Ct, p). LoRA 파인튜닝: stage0의 파손된 해상도에서만 어댑터를 적용하고, 랭크 32, α=32를 사용한다. 1000 iterations로 수행되며, per-video adaptation 없이 하나의 비디오로 일반화한다. RoPE 정렬 및 Visible-token dropping으로 warp의 불완전 영역을 제거하고, 생성 priors와의 균형을 조정한다. 런타임: 한 33프레임 청크의 생성에 원래 샘플링 대비 Transformer/샘플링이 주된 오버헤드를 차지한다. 86%의 visible-token 비율일 때 End-to-end 오버헤드는 7.81초 증가, 47% 비율일 때 4.62초 증가로 나타난다. 워프 준비/렌더링은 약 1–2초를 차지한다.
한계점
Warp의 품질에 따라 성능이 좌우된다. 워프 생성은 외부 재구성 모델에 의존하므로 기하학적 오류 및 가시성 결함이 발생할 수 있다. 히스토리 인터페이스는 여전히 토큰 수를 증가시켜 런타임을 증가시키며, 모델 자체의 generative 능력이 부족하면 LoRA로도 완전한 제어를 달성하기 어렵다.
실무 활용
제한된 데이터로도 카메라 제어가 가능한 비디오 생성의 실무 가능성을 입증한다. 프리트레이닝된 history-conditioning 모델의 인터페이스를 재사용해, 추가 학습 없이도 카메라 궤적에 따른 비주얼 추론을 가능하게 한다.
- 가상 촬영 시나리오에서 카메라 궤적을 사전 정의하고 영상 시퀀스 생성
- 영화/게임 제작에서 제한된 데이터로 카메라 행동의 일관성 유지
- 시뮬레이션 기반 비주얼 레일레이션에서 카메라 동작의 재현성 향상
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.