Warp-as-History: 한 편의 학습 비디오로 일반화 가능한 카메라 제어 비디오 생성을 위한 워프-기반 히스토리

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

카메라 움직임은 인터랙티브 비디오 생성을 좌우하는 주된 제어 신호이다. 기존 방법은 카메라 전용 엔코더나 추가 모듈에 의존하거나, 테스트-타임 최적화가 필요하다. Warp-as-History는 프리트레이닝된 history-conditioned 비디오 생성 모델의 기존 히스토리 인터페이스를 활용해 타깃 카메라 궤적을 camera-warped pseudo-history로 변환하고, 타깃 프레임 위치에 맞춰 정렬하며 가시 토큰 선정을 통해 불완전한 워프를 보완한다. 이 방식은 훈련 없이도 제로샷으로 카메라 팔로우를 유발하며, 단 하나의 카메라 주석 비디오를 이용한 LoRA 파인튜닝으로 unseen 비디오에 일반화하고 품질을 향상시킨다.

왜 중요한가

핵심 기여

Warp-as-History의 제로샷 카메라 팔로우 익히기

타깃 카메라 궤적을 camera-warped pseudo-history로 변환하고, target-frame positional alignment 및 visible-token selection을 적용해 프리트레이닝된 history-conditioning 비디오 생성 모델의 히스토리 채널에서 카메라 모션 신호를 읽히게 한다. 제로샷에서 카메라-follow가 나타나며, 이는 freeze된 모델의 native history pathway를 통해 관찰된다.

한 편의 비디오로 LoRA 파인튜닝으로 안정화

한 편의 카메라-주석 비디오에서 offline LoRA 파인튜닝을 수행해 warp 증거와 모델의 생성 priors 간의 균형을 조정한다. 이 업데이트는 테스트-타임 최적화 없이도 보기 좋은 품질과 일관된 카메라 행동을 보이고 unseen 비디오에 일반화된다.

워프-히스토리 인터페이스의 효과적 적용

Warp를 기존 히스토리 스트림에 들어가도록 하고, warp 토큰의 시간 위치를 타깃 프레임의 RoPE 인덱스와 일치시켜 타깃 프레임 위치와의 정렬을 달성한다. 또한 MC(워프 유효성 마스크)를 이용한 visible-token selection으로 불완전한 워프 영역을 제거하고, 남은 영역만 카메라 모션 신호로 활용한다.

대규모 훈련 없이도 강력한 벤치마크 수행

WorldScore, RE10K, DAVIS에서 제로샷/원샷 설정의 퍼포먼스를 비교한다. Ours(zero-shot)에서 Avg 카메라 제어 63.26, Ours(one-shot)에서 65.64를 달성하고, 주목 가능한 시각 품질 증가를 보인다. 또한 33프레임 월드스코어 벤치에서 카메라 제어가 텍스트-전용 기준보다 크게 향상된다.

핵심 아이디어 이해하기

출발점: history-conditioned 비디오 생성 모델은 과거 프레임을 시각적 맥락으로 사용해 미래 프레임을 예측한다. 본 논문은 camera-induced 기하학적 신호를 새로운 조정 입력으로 만들지 않고, warp를 history로 주입하되 target-frame 위치와의 정렬 및 불완전한 영역의 보정에 집중한다. 결과적으로 프리트레이닝된 모델의 내재적 카메라 팔로우 prior를 노출시키고, 이를 LoRA 파인튜닝으로 안정화한다.

방법론

전체 흐름:

타깃 카메라 궤적 C=(c1,...,cT)를 정의한다.
카메라-유도 워프 WC를 생성하고, 이를 2D 워프 비디오로 투사한다.
워프를 히스토리로 입력하기 위해 H˜Ct = SMC(H(WC))로 처리한다. MC는 warp의 유효성 마스크이며, SMC는 가시 토큰 선정을 적용한다.
타깃 프레임 위치 정렬을 위해 warp 토큰에 타깃 토픽의 RoPE 인덱스를 매핑한다.
warp 토큰을 원래의 history와 함께 입력하고, 불완전 영역은 제거하여 디노이즈-보정 없이도 카메라 모션 신호를 활용한다.
X̂t:t+K ∼ pθ(· | Ht, H̃Ct, p)로 미래 프레임을 샘플링한다.
LoRA 파인튜닝은 첫 번째 해상도(Hellios의 stage0)에서만 수행하고, 사전 학습된 역사 리더의 균형을 warp 증거와 생성 prior 사이에서 조정한다. 파인튜닝은 약 1000 iterations로 이루어지며, 하나의 영상으로 일반화한다.

주요 결과

주요 결과:

WorldScore: Ours(zero-shot) Avg=63.26, Camera Control=61.32, Isolated Quality=47.37; Ours(one-shot) Avg=65.64, Camera Control=62.00, Isolated Quality=54.83. Helios-Distilled(텍스트-전용)보다 카메라 제어에서 큰 개선을 보였고, 온라인 벤치마크에서 SOTA 카메라 제어 베이스라인과 비교 가능했다.
33프레임 DAVIS: Ours(one-shot) PSNR=15.21, SSIM=0.3976, LPIPS=0.3794, VisLPIPS=0.2236, R-Err=2.97, T-Err=0.0942, DOVER=0.714, FID=68.18, FVD=57.95.
RE10K: Ours(one-shot) PSNR=17.15, SSIM=0.6214, LPIPS=0.2343, VisLPIPS=0.1426, R-Err=1.28, T-Err=0.0454, DOVER=0.980, FID=65.97, FVD=, 0.980 등. 외부 baselines Gen3C/Voyager/ViewCrafter과 비교했을 때 카메라 팔로우 및 시각적 품질에서 유사 또는 우수한 성능을 달성한다.

기술 상세

아키텍처: Helios 백본의 히스토리 조건화 경로를 재활용한다. Warp-히스토리 H˜Ct는 히스토리 구성자 H에 WC의 워프를 입력한 뒤 MC를 적용해 가시 토큰만 남긴다. RoPE 정렬을 통해 warp 토큰의 타깃 프레임 위치를 현재 프레임의 인덱스에 맞춘다. X̂t:t+K ∼ pθ(· | Ht, H̃Ct, p). LoRA 파인튜닝: stage0의 파손된 해상도에서만 어댑터를 적용하고, 랭크 32, α=32를 사용한다. 1000 iterations로 수행되며, per-video adaptation 없이 하나의 비디오로 일반화한다. RoPE 정렬 및 Visible-token dropping으로 warp의 불완전 영역을 제거하고, 생성 priors와의 균형을 조정한다. 런타임: 한 33프레임 청크의 생성에 원래 샘플링 대비 Transformer/샘플링이 주된 오버헤드를 차지한다. 86%의 visible-token 비율일 때 End-to-end 오버헤드는 7.81초 증가, 47% 비율일 때 4.62초 증가로 나타난다. 워프 준비/렌더링은 약 1–2초를 차지한다.

한계점

Warp의 품질에 따라 성능이 좌우된다. 워프 생성은 외부 재구성 모델에 의존하므로 기하학적 오류 및 가시성 결함이 발생할 수 있다. 히스토리 인터페이스는 여전히 토큰 수를 증가시켜 런타임을 증가시키며, 모델 자체의 generative 능력이 부족하면 LoRA로도 완전한 제어를 달성하기 어렵다.

실무 활용

제한된 데이터로도 카메라 제어가 가능한 비디오 생성의 실무 가능성을 입증한다. 프리트레이닝된 history-conditioning 모델의 인터페이스를 재사용해, 추가 학습 없이도 카메라 궤적에 따른 비주얼 추론을 가능하게 한다.

가상 촬영 시나리오에서 카메라 궤적을 사전 정의하고 영상 시퀀스 생성
영화/게임 제작에서 제한된 데이터로 카메라 행동의 일관성 유지
시뮬레이션 기반 비주얼 레일레이션에서 카메라 동작의 재현성 향상

코드 공개 여부: 공개

코드 저장소 보기

키워드

camera-induced warps — 카메라 유도 워프Warp-as-History — Warp-as-Historyhistory-conditioned video generation — 히스토리-조건부 비디오 생성Target-frame positional alignment — 타깃 프레임 위치 정렬visible-token selection — 가시 토큰 선택LoRA finetuning — LoRA 파인튜닝zero-shot camera-follow — 제로샷 카메라 팔로우WorldScore — WorldScore 벤치마크