ShotVerse: 텍스트 기반 멀티샷 비디오 생성을 위한 시네마틱 카메라 제어 기술의 발전

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 비디오 생성 모델은 단일 샷의 카메라 움직임은 어느 정도 제어하지만, 여러 장면이 이어지는 영화적 연출을 정교하게 구현하는 데 한계가 있었다. ShotVerse는 텍스트 프롬프트를 기반으로 3D 카메라 궤적을 먼저 계획하고 이를 실행하는 '계획 후 제어' 방식을 도입하여, 전문 영화 제작 수준의 카메라 워킹과 장면 간 일관성을 동시에 확보했다.

왜 중요한가

핵심 기여

ShotVerse-Bench 데이터셋 구축

고품질 영화 장면 20,500개를 수집하고, 서로 다른 샷의 카메라 궤적을 통합된 전역 좌표계로 정렬한 최초의 대규모 멀티샷 시네마틱 데이터셋이다.

Plan-then-Control 프레임워크 제안

비디오 생성을 VLM 기반의 플래너(Planner)와 카메라 어댑터 기반의 컨트롤러(Controller)로 분리하여, 복잡한 카메라 연출의 자동 계획과 정밀한 실행을 가능하게 했다.

4D Rotary Positional Embedding (4D RoPE) 도입

비디오, 샷, 프레임으로 이어지는 계층적 구조를 반영한 새로운 위치 임베딩 기법을 제어 모델에 도입하여 장면 전환 시의 시각적 일관성을 높였다.

자동 카메라 캘리브레이션 파이프라인 설계

동적 객체를 제거하고 정적 배경을 재구성하여 분절된 샷들의 카메라 포즈를 하나의 좌표계로 통합하는 자동화된 워크플로우를 제안했다.

핵심 아이디어 이해하기

기존 비디오 생성 모델은 텍스트 프롬프트에 포함된 '줌 인'이나 '팬 왼쪽' 같은 암시적인 명령어를 정확히 따르지 못하거나, 여러 샷이 이어질 때 카메라의 연속성을 잃는 문제가 있었다. 이는 모델이 텍스트와 실제 3D 공간상의 카메라 움직임(Trajectory) 사이의 상관관계를 충분히 학습하지 못했기 때문이다.

ShotVerse는 이 문제를 해결하기 위해 '계획(Planning)'과 '제어(Control)'를 분리한다. 먼저 VLM(Vision-Language Model)의 강력한 공간 추론 능력을 활용해 텍스트 프롬프트를 구체적인 3D 카메라 좌표 시퀀스로 변환한다. 마치 영화 감독이 콘티를 짜듯, 모델이 먼저 카메라가 어디로 움직일지 '수치화된 계획'을 세우는 것이다.

이렇게 생성된 정밀한 궤적은 컨트롤러에 입력되어 실제 비디오 픽셀을 생성하는 가이드 역할을 한다. 특히 4D RoPE 기술을 통해 모델이 현재 어느 샷의 몇 번째 프레임을 생성 중인지 명확히 인지하게 함으로써, 장면이 바뀔 때 발생하는 시각적 왜곡을 억제하고 영화적인 호흡을 유지한다.

방법론

Planner 설계 단계에서는 Qwen3-VL-2B를 백본으로 사용하며, 텍스트 프롬프트를 입력받아 이산화된 토큰 형태의 카메라 포즈(12D 벡터: [tt, rt])를 생성한다. 텍스트 프롬프트 입력을 VLM으로 인코딩한 뒤 Trajectory Decoder를 거쳐 3D 카메라 궤적 토큰을 출력함으로써 시네마틱 패턴을 반영한 경로를 도출한다.

Controller 및 Camera Encoder는 HoloCine 모델을 기반으로 하며, 카메라 외적 행렬(Extrinsic Matrix) Et를 입력받아 비디오 토큰 채널 크기에 맞춰 투영한다. Et(3x4) 행렬을 1차원으로 펼친 후 Fully Connected Layer를 통과시켜 비디오 토큰과 동일한 차원 d의 벡터 ccam을 생성하며, 이 값은 Transformer 블록의 Self-Attention 직전에 더해져 모델이 궤적을 엄격히 따르도록 강제한다.

4D Rotary Positional Embedding (4D RoPE)은 표준 3D 위치 임베딩을 확장하여 샷 인덱스(Shot Index) 차원을 추가한다. Attention Head의 차원을 샷, 프레임, 높이, 너비의 네 가지 부분 공간으로 나누고 각 공간에 대해 독립적인 회전 주파수를 계산하여 결합함으로써, 샷 내부의 일관성과 샷 간의 경계를 명확히 구분하는 수치적 기반을 제공한다.

주요 결과

Track A(Text-to-Trajectory) 평가에서 ShotVerse 플래너는 F1-Score 0.422, CLaTr-CLIP 35.016을 기록하며 기존 SOTA 모델인 GenDoP(0.343, 33.875)를 크게 상회했다. 이는 VLM의 공간적 사전 지식이 복잡한 멀티샷 계획에 효과적임을 입증한다.

Track B(Trajectory-to-Video) 실행 정확도 면에서 이동 오차(Trans. Error) 0.0163, 회전 오차(Rotation Error) 0.73으로 가장 낮은 수치를 보였으며, 좌표 정렬 점수(CAS)는 0.500으로 가장 높았다. 이는 제안된 카메라 어댑터가 입력된 궤적을 매우 정밀하게 재현함을 의미한다.

Track C(End-to-End) 종합 평가 결과, FVD 281.71과 미적 품질(Aesthetic Quality) 5.465를 달성했다. Sora2(FVD 372.13)나 VEO3(FVD 941.50) 같은 상용 모델보다 시각적 일관성과 영화적 연출력에서 우수한 성능을 보였다.

기술 상세

ShotVerse-Bench는 20,500개의 클립을 포함하며, SAM(Segment Anything Model)을 이용해 동적 객체를 마스킹한 후 PI3를 활용해 정적 배경 기반의 3D 재구성을 수행한다. 이를 통해 분절된 샷들을 하나의 전역 좌표계로 통합하는 앵커 기반 궤적 정렬(Anchor-Based Trajectory Alignment)을 구현했다.

플래너의 학습에는 Cross-Entropy Loss와 함께 잠재 코드 Hplan에 대한 L2 정규화 항을 추가하여 오버피팅을 방지하고 표현의 콤팩트함을 유지한다. 추론 시에는 Nucleus Sampling(tau=0.9, p=0.95)을 사용하여 생성되는 궤적의 다양성을 확보한다.

컨트롤러는 Flow Matching 목적 함수를 사용하여 최적화된다. 특히 학습 과정에서 카메라 인코더는 노이즈가 높은 단계(0.875 <= sigma <= 1)에서만 최적화되는 2단계 학습 전략을 채택하여, 모델의 기존 생성 능력을 해치지 않으면서 새로운 제어 신호에 적응하도록 설계되었다.

한계점

샷-역샷(Shot-reverse-shot) 시나리오에서 텍스트 프롬프트가 캘리브레이션 노이즈를 보완해주지만, 긴 문맥에서 반복되는 뷰의 미세한 드리프트 현상이 여전히 존재한다. 또한 현재 모델은 동일 장면 내의 멀티샷에 집중하고 있어 무한한 길이의 생성이나 장면 간의 급격한 전환에는 한계가 있으며, 밀도가 높은 군중 장면에서는 성능이 저하되는 경향이 있다.

실무 활용

전문적인 카메라 컨트롤이 필요한 영화, 광고, 뮤직비디오 등의 프리비즈(Pre-visualization) 제작에 즉시 활용 가능하다. 텍스트만으로 정교한 3D 카메라 워킹을 생성할 수 있어 제작 비용과 시간을 획기적으로 줄여준다.

영화 시나리오 기반의 자동 스토리보드 및 가이드 영상 생성
텍스트 프롬프트를 이용한 가상 환경 내 카메라 워킹 자동화
멀티샷이 포함된 고품질 소셜 미디어 영상 콘텐츠 제작

코드 공개 여부: 공개

코드 저장소 보기

키워드

Video Generation(비디오 생성)Camera Control(카메라 제어)VLM(시각 언어 모델)Multi-shot(멀티샷)Cinematography(영화 촬영법)