CubeComposer: 시점 비디오로부터 시공간 자기회귀 방식의 4K 360도 비디오 생성

왜 중요한가

기존 360도 비디오 생성 기술은 연산량 한계로 인해 1K 해상도 수준에 머물렀으며, 화질을 높이기 위해 별도의 업스케일링 모델에 의존해야 했습니다. CubeComposer는 영상을 6개의 큐브 면으로 나누어 순차적으로 생성하는 방식을 도입하여, 추가적인 보정 없이도 몰입감 넘치는 네이티브 4K 해상도의 VR 콘텐츠를 직접 생성할 수 있게 합니다.

핵심 기여

시공간 자기회귀 확산 모델 프레임워크

360도 비디오를 큐브맵의 6개 면으로 분해하고 시공간적 순서에 따라 점진적으로 생성함으로써, 메모리 사용량을 획기적으로 줄이면서도 4K 초고해상도 출력을 구현했다.

카메라 궤적 기반의 생성 순서 계획

입력된 시점 비디오의 카메라 움직임을 분석하여 정보가 가장 확실한 영역부터 우선 생성하는 커버리지 가이드 방식을 통해 생성의 안정성과 일관성을 확보했다.

선형 복잡도의 희소 컨텍스트 어텐션

과거 생성 이력과 미래의 파편 정보를 모두 활용하면서도 연산 복잡도를 선형적으로 유지하는 Sparse Context Attention 메커니즘을 설계하여 고해상도 처리를 가능하게 했다.

연속성 보존을 위한 큐브 인식 설계

큐브 면 사이의 경계선을 제거하기 위해 위상 구조를 반영한 위치 인코딩, 패딩 및 블렌딩 기법을 도입하여 시각적 불연속성 문제를 해결했다.

핵심 아이디어 이해하기

기존 비디오 확산 모델은 전체 프레임의 모든 픽셀 간 관계를 계산하는 Self-Attention을 사용하는데, 360도 영상처럼 정보량이 방대한 고해상도 데이터에서는 연산량이 시퀀스 길이의 제곱(N²)으로 늘어나 메모리 부족 문제가 발생한다. CubeComposer는 이 문제를 해결하기 위해 360도 영상을 정육면체 상자(Cubemap)의 6개 면으로 펼치고, 한 번에 전체를 만드는 대신 면 단위로 하나씩 '자기회귀(Autoregressive)' 방식으로 생성한다. 이는 마치 퍼즐을 맞추듯 이미 알고 있는 부분(입력 영상)에서 시작해 주변을 채워나가는 원리다. 이 과정에서 '희소 컨텍스트 어텐션(Sparse Context Attention)'을 사용하여 주변 면의 정보는 꼼꼼히 참조하되 멀리 떨어진 정보는 효율적으로 처리함으로써 연산 효율을 극대화했다. 결과적으로 기존 모델들이 1K 해상도에서 멈출 때, 동일한 자원으로 네이티브 4K 영상을 끊김 없이 생성할 수 있게 되었다.

방법론

전체 프로세스는 입력 시점 비디오를 큐브맵 형태로 투영하여 마스킹된 조건부 입력을 얻는 것으로 시작한다. 전체 비디오를 시간 단위의 윈도우로 나누고, 각 윈도우 내에서 6개의 큐브 면(Front, Right, Back, Left, Up, Down)을 특정 순서에 따라 생성한다. 생성 순서는 입력 비디오의 카메라 궤적에 따른 공간적 커버리지(Coverage)를 기준으로 결정된다. 각 면 f와 시간 t에 대해 이진 마스크 M_f,t의 평균값을 계산하여 커버리지 수치 c_f,w를 산출하고, 이 값이 높은 면부터 우선적으로 생성하여 오차 누적을 방지한다. 컨텍스트 관리를 위해 History, Current, Future 세 종류의 토큰을 결합한 u_w,f 벡터를 입력으로 사용한다. Sparse Context Attention은 생성 시퀀스 G와 컨텍스트 시퀀스 C가 주어질 때, 컨텍스트 내의 자기 참조는 대각선 밴드 마스크 K를 적용해 O(C·K)의 선형 복잡도로 제한함으로써 고해상도 처리를 지원한다. 경계면의 시각적 불연속성을 해결하기 위해 큐브 구조의 위상적 관계를 반영한 Positional Encoding을 적용한다. 또한, 인접한 면의 잠재 변수(Latent)를 가져와 회전 및 반전 후 현재 면의 가장자리에 붙이는 Padding 기법과 생성 후 픽셀 공간에서 가중 평균을 내는 Blending 기법을 병행한다.

주요 결과

4K360Vid 및 ODV360 데이터셋에서 실험한 결과, CubeComposer는 네이티브 2K 및 4K 해상도에서 기존 SOTA 모델인 Argus, Imagine360 등을 압도하는 성능을 보였다. 특히 4K360Vid 데이터셋의 4K 설정에서 FVD 2.2205를 기록하여, 1K 모델에 업스케일러를 적용한 방식보다 훨씬 자연스러운 움직임을 구현했다. Ablation Study를 통해 미래 파편(Future fragments) 토큰의 중요성을 입증했다. 미래 정보를 제외했을 때 FVD가 4.2592에서 6.0369로 크게 상승하여, 시공간적 일관성 유지에 미래 시점의 힌트가 필수적임을 확인했다. 큐브 인식 패딩 및 블렌딩 기법을 적용했을 때 FID가 190.33에서 157.12로 개선되었으며, 시각적으로도 면 사이의 경계선이 거의 보이지 않는 매끄러운 파노라마 영상이 생성됨을 확인했다.

실무 활용

별도의 특수 카메라 장비 없이 일반 카메라로 촬영한 영상만으로 고화질 VR 콘텐츠를 제작할 수 있게 해준다. 4K 해상도를 네이티브로 지원하므로 상용 VR 헤드셋에서 즉시 활용 가능한 수준의 화질을 제공한다.

일반 스마트폰 영상 기반의 360도 VR 관광 콘텐츠 자동 생성
가상 현실(VR) 게임 및 메타버스 환경을 위한 고해상도 배경 에셋 제작
기존 2D 영상의 몰입형 360도 영상 변환 서비스
부동산 및 전시회 관람을 위한 가상 투어 영상 생성

기술 상세

CubeComposer는 비디오 확산 트랜스포머(DiT) 아키텍처를 기반으로 하며, 기초 모델로 Wan 2.2 5B를 활용하여 풍부한 비디오 사전 지식을 계승한다. 360도 전방위 의존성을 해결하기 위해 시간적 자기회귀를 넘어 공간적(큐브 면 단위) 자기회귀를 결합한 것이 핵심이다. 학습 시에는 Flow-matching 목적 함수를 사용하여 속도 벡터 v_θ를 예측하도록 훈련된다. 손실 함수 L은 노이즈가 섞인 잠재 변수 z_t와 컨텍스트 u_w,f, 글로벌 프롬프트 y가 주어졌을 때 실제 속도 v_t와의 차이의 제곱 평균으로 정의된다. Sparse Context Attention 메커니즘은 전체 토큰 시퀀스 길이가 길어질 때 발생하는 연산량 폭증 문제를 해결한다. 생성 토큰은 전체 어텐션을 수행하지만, 컨텍스트 토큰은 자기 자신에 대해 대각선 밴드 형태의 국소적 어텐션만 수행하도록 제약하여 메모리 효율을 확보했다. 데이터셋 측면에서는 Qwen3-VL 모델을 이용해 11,832개의 고화질 4K 클립에 대해 글로벌 및 면 단위 캡션을 생성한 4K360Vid를 구축하여 정교한 제어가 가능하도록 했다.

한계점

추론 시 여러 단계의 자기회귀 과정을 거쳐야 하므로 전체 비디오 생성 속도가 실시간 스트리밍 수준에는 미치지 못할 수 있다. 또한, 확산 단계를 줄이고 연산량을 더욱 최적화하여 지연 시간을 낮추는 과제가 남아 있다.

키워드

360도 비디오 생성(360-degree Video Generation)자기회귀 확산 모델(Autoregressive Diffusion Model)큐브맵 표현(Cubemap Representation)희소 어텐션(Sparse Attention)가상 현실(Virtual Reality)