핵심 요약
기존의 단안 비디오 생성 방식은 입체감을 구현하기 위해 별도의 깊이 추정이나 보정 과정이 필요해 속도가 느리고 오류가 누적되는 한계가 있었다. 이 논문은 카메라의 움직임 정보를 직접 입력받아 두 눈으로 보는 듯한 스테레오 영상을 한 번에 생성함으로써, VR/AR 및 로봇 제어 분야에서 실시간에 가까운 고품질 입체 시각 정보를 제공한다.
왜 중요한가
기존의 단안 비디오 생성 방식은 입체감을 구현하기 위해 별도의 깊이 추정이나 보정 과정이 필요해 속도가 느리고 오류가 누적되는 한계가 있었다. 이 논문은 카메라의 움직임 정보를 직접 입력받아 두 눈으로 보는 듯한 스테레오 영상을 한 번에 생성함으로써, VR/AR 및 로봇 제어 분야에서 실시간에 가까운 고품질 입체 시각 정보를 제공한다.
핵심 기여
카메라 조건부 스테레오 월드 모델 최초 구현
외관과 양안 기하학을 동시에 학습하여 엔드투엔드 방식으로 스테레오 비디오를 생성하는 최초의 카메라 조건부 시스템을 구축했다.
통합 카메라 프레임 RoPE 도입
잠재 토큰 공간을 확장하고 카메라 정보를 포함하는 회전 위치 인코딩을 적용하여, 사전 학습된 비디오 생성 능력을 유지하면서도 시점과 시간의 일관성을 확보했다.
스테레오 인식 어텐션 분해 기법 개발
복잡한 4D 어텐션을 3D 내부 뷰 어텐션과 수평 행 어텐션으로 분해하여, 에피폴라 기하학적 제약 조건을 활용하면서 연산량을 대폭 절감했다.
지표 스케일의 깊이 접지 구현
별도의 깊이 감독 학습 없이도 양안 이미지 신호만으로 정확한 거리 정보를 파악하여 로봇 팔 제어 등 실제 물리적 환경 상호작용 능력을 강화했다.
핵심 아이디어 이해하기
기존 비디오 생성 모델은 주로 하나의 렌즈로 보는 단안 영상을 다루며, 입체 영상을 만들려면 생성된 영상에서 깊이를 추정하고 반대편 시점을 그리는 복잡한 후처리가 필요했다. 이 과정에서 Attention 메커니즘은 모든 프레임과 픽셀 간의 관계를 계산해야 하므로 연산량이 기하급수적으로 늘어나고, 두 시점 간의 미세한 기하학적 일관성을 유지하기 어려웠다.
StereoWorld는 카메라의 위치와 회전 정보를 RoPE(회전 위치 인코딩)라는 기초 개념에 직접 주입하는 방식을 선택했다. 기존 RoPE가 토큰의 순서만 알려주었다면, 여기서는 카메라의 상대적 위치 관계를 토큰의 특징 벡터 회전량으로 변환하여 모델이 공간적 거리감을 자연스럽게 학습하도록 유도했다.
또한, 스테레오 이미지의 두 시점 사이의 대응점은 항상 같은 수평선(에피폴라 라인) 위에 존재한다는 광학적 원리를 활용했다. 전체 픽셀을 대조하는 대신 수평 방향의 토큰들만 집중적으로 비교하는 '수평 행 어텐션'을 도입함으로써, 연산 효율을 높이면서도 양안 시차를 정확하게 맞추는 데 성공했다.
방법론
전체 아키텍처는 사전 학습된 DiT(Diffusion Transformer) 기반 비디오 생성 모델인 Wan2.2를 백본으로 사용하며, 이를 스테레오 비디오 생성을 위한 엔드투엔드 구조로 확장했다. 입력된 스테레오 이미지 쌍과 카메라 궤적 정보를 바탕으로 잠재 공간에서 노이즈를 제거하며 영상을 생성하는 Rectified Flow 공식을 따른다.
Unified Camera-Frame RoPE는 카메라 파라미터 cam_t = {K_t, T_t}를 입력으로 받아 토큰의 차원을 d + d_c로 확장하고, 확장된 영역에 카메라 정보를 반영한 회전 행렬 R_cam을 적용한다. [입력 벡터 → 카메라 정보 기반 회전 연산 → 변형된 토큰 벡터] 과정을 통해 모델은 절대 좌표계에 의존하지 않고도 시점 간의 상대적 관계를 파악한다.
Stereo-Aware Attention은 4D 어텐션을 Attn_3D와 Attn_row로 분해한다. Attn_row는 동일한 타임스텝에서 수평으로 정렬된 토큰들 사이의 관계만 계산하며, [수평 픽셀 나열 → 행 단위 어텐션 → 시차 정렬된 특징 추출] 순으로 작동하여 에피폴라 제약을 효율적으로 구현한다.
주요 결과
StereoWorld는 기존의 SOTA 단안 모델 후처리 방식 대비 생성 속도를 3배 이상 향상시켰으며(0.49 FPS), 시점 일관성 지표에서 약 5%의 성능 향상을 기록했다. 특히 FID(111.36)와 FVD(83.04) 점수에서 가장 우수한 시각적 품질을 보여주었다.
카메라 궤적 정확도 분석에서 회전 오차 1.01, 이동 오차 0.11을 기록하며 조건부 입력된 카메라 움직임을 가장 충실하게 재현했다. 이는 Unified Camera-Frame RoPE가 카메라 제어 신호를 효과적으로 수용하고 있음을 증명한다.
Ablation Study 결과, 4D 어텐션 전체를 사용하는 것보다 제안된 분해 기법을 사용할 때 연산량이 약 50% 감소하면서도 시각적 품질은 거의 동일하게 유지됨이 확인되었다.
실무 활용
VR/AR 콘텐츠 제작 시 별도의 깊이 맵 생성이나 인페인팅 과정 없이 즉시 입체 영상을 생성할 수 있어 제작 공정을 획기적으로 단축한다. 또한 로봇 공학에서 정밀한 거리 감각이 필요한 조작 작업의 시뮬레이션 및 학습 데이터 생성에 활용 가능하다.
- VR/AR 헤드셋용 실시간 입체 배경 및 시나리오 생성
- 로봇 팔의 정밀 물체 조작을 위한 스테레오 시각 데이터 증강
- 가상 투어 및 인터랙티브 3D 장면 탐색 서비스
- 자율 주행 시스템의 양안 카메라 기반 주변 환경 예측 시뮬레이션
기술 상세
모델은 Wan2.2-TI2V-5B를 기반으로 하며, 480x640 해상도의 49프레임 비디오 클립을 처리하도록 설계되었다. 3D VAE를 통해 비디오를 잠재 표현 z로 압축한 후 DiT 블록에서 노이즈 제거 과정을 수행한다.
핵심인 Unified Camera-Frame RoPE는 기존의 3D RoPE 공간을 침범하지 않기 위해 토큰 차원을 확장하는 전략을 취한다. 'Copy Init' 전략을 통해 확장된 차원의 가중치를 시간축 어텐션 가중치로 초기화함으로써 학습 안정성과 수렴 속도를 높였다.
Stereo-Aware Attention은 에피폴라 기하학을 아키텍처 수준에서 강제한다. 수평 행 어텐션은 좌우 뷰의 동일한 행에 있는 토큰들만 연결하므로 연산 복잡도가 O((2fhw)^2)에서 O(2(fhw)^2 + fh(2w)^2)로 크게 줄어든다.
장기 비디오 생성을 위해 'Long Video Distillation' 기법을 적용했다. 확산 샘플링 과정을 4단계로 증류하고 인과적 어텐션 메커니즘과 KV 캐싱을 도입하여 10초 이상의 긴 스테레오 영상을 생성할 수 있게 했다.
한계점
현재 모델은 주로 정적인 장면을 생성하는 데 치중되어 있는데, 이는 학습에 사용된 스테레오 비디오 데이터셋의 부족으로 인한 한계이다. 또한 영상이 길어질수록 품질이 점진적으로 저하되는 현상이 관찰된다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료