핵심 요약
기존의 비디오 생성 모델은 카메라의 움직임을 정밀하게 제어하기 위해 복잡한 수치 매개변수를 직접 입력해야 하는 번거로움이 있었다. CT-1은 자연어 명령만으로도 장면의 맥락을 이해하고 물리적으로 자연스러운 카메라 궤적을 스스로 생성하여 비디오 생성의 편의성과 정확도를 동시에 높였다.
왜 중요한가
기존의 비디오 생성 모델은 카메라의 움직임을 정밀하게 제어하기 위해 복잡한 수치 매개변수를 직접 입력해야 하는 번거로움이 있었다. CT-1은 자연어 명령만으로도 장면의 맥락을 이해하고 물리적으로 자연스러운 카메라 궤적을 스스로 생성하여 비디오 생성의 편의성과 정확도를 동시에 높였다.
핵심 기여
Vision-Language-Camera (VLC) 모델 아키텍처 제안
시각적 관찰과 언어적 지시를 결합하여 공간적으로 인지되고 시간적으로 일관된 카메라 궤적을 추론하는 새로운 VLC 모델인 CT-1을 설계했다.
Wavelet 기반 정규화 손실 함수 도입
주파수 영역에서 카메라 궤적의 저주파(전체적 흐름)와 고주파(세부 떨림) 성분을 분리하여 관리하는 WavReg Loss를 통해 물리적으로 안정적이고 매끄러운 움직임을 구현했다.
대규모 데이터셋 CT-200K 구축
4,700만 프레임 이상의 비디오 데이터에 정밀한 카메라 모션 주석을 추가한 대규모 데이터셋을 구축하여 모델의 공간 추론 능력을 강화했다.
카메라 제어 정확도 25.7% 향상
기존의 최신 모델들 대비 카메라 제어 성공률을 25.7% 개선하며 텍스트 지시문과의 정렬 성능을 입증했다.
핵심 아이디어 이해하기
기존 비디오 생성에서 카메라 제어는 주로 수치화된 좌표값(Extrinsics)을 모델에 직접 주입하는 방식이었다. 하지만 이는 사용자가 직관적으로 다루기 어렵고, 장면의 내용과 상관없이 기계적인 움직임만 생성하는 한계가 있다. CT-1은 이를 해결하기 위해 카메라 궤적 자체를 하나의 '언어'처럼 다루는 Vision-Language-Camera(VLC) 개념을 도입했다.
먼저 이미지의 특징을 추출하는 Embedding 기술과 텍스트의 의미를 파악하는 Transformer 구조를 결합하여, 현재 장면에서 어떤 카메라 움직임이 가능한지 공간적으로 추론한다. 예를 들어 '벽에 붙은 포스터로 다가간다'는 명령이 주어지면, 모델은 이미지 내에서 벽과 포스터의 위치를 파악하고 그 방향으로 이동하는 궤적을 스스로 계산한다.
이 과정에서 Diffusion Transformer(DiT)를 활용해 단일한 정답 궤적이 아닌, 물리적으로 가능한 여러 궤적의 분포를 학습한다. 이를 통해 같은 명령이라도 장면의 구조에 맞춰 유연하고 자연스러운 카메라 워킹을 생성할 수 있게 된다.
방법론
CT-1은 크게 시각-언어 모듈과 카메라 트랜스포머 모듈로 구성된다. 시각 모듈은 DINOv2와 SigLIP이라는 두 가지 인코더를 병렬로 사용하여 세부적인 로컬 특징과 고차원적인 의미 정보를 동시에 포착한다. 언어 모듈은 LLaMA-2를 백본으로 사용하여 사용자의 텍스트 지시문을 토큰화하고, 시각 토큰 및 특수 토큰인 과 결합하여 다중 모달 통합을 수행한다.
카메라 트랜스포머는 Diffusion Transformer(DiT) 구조를 채택하여 카메라 궤적 K ∈ R^{T×C}의 분포를 학습한다. 순방향 확산 과정에서 노이즈가 섞인 궤적 K(s) = √α_s K + √1-α_s ε를 입력받아 원래의 깨끗한 궤적을 복원하는 방식으로 학습된다. 여기서 ε는 평균 0, 분산 I인 가우시안 노이즈이며, 모델은 이 노이즈를 제거하는 방향으로 가중치를 갱신한다.
특히 물리적 안정성을 위해 주파수 영역의 WavReg Loss를 도입했다. 1D Haar Discrete Wavelet Transform(DWT)을 사용하여 궤적을 저주파(a_L)와 고주파(d_l) 성분으로 분해한다. 전체적인 이동 경로를 결정하는 저주파 성분에 더 높은 가중치 λ_a를 부여하여 L_wav = λ_a ||a_L(K_hat) - a_L(K)||_1 + Σ λ_dl ||d_l(K_hat) - d_l(K)||_1 형태로 손실을 계산함으로써, 불필요한 떨림은 억제하고 부드러운 움직임을 유도한다.
주요 결과
CameraBench100 벤치마크에서 CT-1은 평균 81.6%의 제어 성공률을 기록했다. 이는 기존 VLM 기반 모델(30.1%)이나 프롬프트 확장 기법을 사용한 Wan2.2(64.9%)를 크게 상회하는 수치다. 특히 'Truck Left/Right'나 'Complex Motion'과 같이 정교한 공간 인지가 필요한 시나리오에서 타 모델 대비 압도적인 성능 우위를 보였다.
비디오 품질 평가인 VBench에서도 미적 품질(0.585), 움직임의 매끄러움(0.990) 등 대부분의 지표에서 SOTA 모델인 Wan2.2나 CogVideoX를 능가하거나 대등한 수준을 유지했다. 이는 CT-1이 생성한 카메라 궤적이 비디오 생성 모델의 본래 화질을 저해하지 않으면서도 정확한 움직임을 가이드하고 있음을 의미한다.
Ablation Study 결과, WavReg Loss의 가중치 β가 0.1일 때 가장 최적의 성능을 보였으며, 모델 파라미터 규모를 33M에서 458M으로 확장함에 따라 복잡한 움직임에 대한 제어 능력이 지속적으로 향상되는 스케일링 법칙이 확인됐다.
기술 상세
CT-1은 카메라 궤적 추론과 비디오 생성을 분리한 모듈형 2단계 파이프라인을 채택했다. 첫 번째 단계에서 CT-1이 텍스트와 참조 이미지를 바탕으로 최적의 SE(3) 매니폴드 상의 카메라 포즈 시퀀스를 예측하고, 두 번째 단계에서 이 궤적을 CameraNoise와 같은 기존 제어 가능 비디오 확산 모델에 주입한다.
궤적 예측 시 단순 회귀(Regression)가 아닌 확산 모델을 사용한 이유는 카메라 제어의 '일대다(One-to-Many)' 특성 때문이다. 동일한 지시문이라도 장면의 기하학적 구조에 따라 여러 유효한 경로가 존재할 수 있는데, 확산 모델은 이러한 확률 분포를 효과적으로 모델링하여 결정론적 회귀 모델이 겪는 '평균화 오류'를 방지한다.
데이터 측면에서는 기존 비디오 데이터셋의 부족한 주석 문제를 해결하기 위해 VGGT 모델을 활용한 자동 레이블링 시스템을 구축했다. 실내외 장면에서 93.5%의 정확도를 가진 포즈 추정 모델을 통해 4,700만 프레임 규모의 CT-200K 데이터셋을 구축했으며, LLM을 활용해 시각적 내용과 모션 설명 간의 불일치를 정제하는 파이프라인을 적용했다.
한계점
현재 CT-1은 비디오 생성 모델의 백본 성능에 의존적이다. 예를 들어 백본 모델 자체가 카메라 모션 텍스트에 대한 민감도가 낮을 경우, CT-1이 정확한 궤적을 제공하더라도 최종 영상에서 정적인 결과가 나올 수 있는 한계가 본문에서 언급되었다.
실무 활용
CT-1은 전문적인 카메라 매개변수 지식 없이도 고품질의 카메라 제어 비디오를 생성할 수 있게 해주어 콘텐츠 제작 분야에서 즉시 활용 가능하다.
- 영화 및 광고 제작 시 텍스트 콘티만으로 가상 카메라 워킹 시뮬레이션
- 1인 크리에이터가 정지 이미지를 활용해 역동적인 줌/팬 효과가 들어간 영상 제작
- 자율주행 데이터셋 생성을 위해 특정 주행 시나리오에 따른 카메라 시점 변화 합성
- 로봇 시뮬레이션 환경에서 에이전트의 시점 이동 궤적 생성 및 학습 데이터 보강
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.