핵심 요약
기존 비디오 생성 모델은 시야각이 좁아 넓은 공간을 이동할 때 화면이 뭉개지거나 일관성이 깨지는 문제가 있었다. OmniRoam은 파노라마 방식을 도입해 360도 전체 시야를 확보함으로써, 아주 긴 경로를 이동해도 배경이 변하지 않고 유지되는 고화질 가상 탐험을 가능하게 한다.
왜 중요한가
기존 비디오 생성 모델은 시야각이 좁아 넓은 공간을 이동할 때 화면이 뭉개지거나 일관성이 깨지는 문제가 있었다. OmniRoam은 파노라마 방식을 도입해 360도 전체 시야를 확보함으로써, 아주 긴 경로를 이동해도 배경이 변하지 않고 유지되는 고화질 가상 탐험을 가능하게 한다.
핵심 기여
글로벌-투-로컬 프리뷰-리파인 구조
전체적인 장면 구조를 먼저 잡고 세부 디테일을 나중에 채우는 2단계 생성 방식을 통해 고해상도 장기 비디오 생성을 실현했다.
분해된 궤적 제어 메커니즘
카메라 움직임을 방향(flow)과 속도(scale)로 분리하여 제어함으로써, 사용자가 원하는 경로를 더 정밀하고 직관적으로 조절할 수 있게 했다.
루프 일관성(Loop Consistency) 지표 제안
카메라가 한 바퀴 돌아 제자리로 왔을 때 처음 장면과 얼마나 일치하는지를 측정하는 새로운 평가 지표를 제안하여 장기적 일관성을 정량화했다.
대규모 하이브리드 파노라마 데이터셋 구축
실세계 영상과 3D 가우시안 스플래팅(3DGS)으로 생성한 정밀한 합성 데이터를 결합하여 모델의 기하학적 이해도를 높였다.
핵심 아이디어 이해하기
기존 비디오 생성은 특정 방향만 보는 '원근(Perspective)' 방식에 의존한다. 이는 카메라가 이동하면서 새로운 영역이 나타날 때 이전 정보를 잊어버리기 쉬워, 한 바퀴 돌아왔을 때 배경이 바뀌어 있는 '드리프트' 현상을 유발한다. Transformer 기반 모델에서도 이 문제는 긴 시퀀스에 걸친 메모리 유지 한계로 나타난다.
OmniRoam은 모든 방향을 한 번에 담는 '파노라마' 표현법을 앵커로 삼는다. 파노라마는 화면의 끝과 끝이 연결된 원통형 구조이므로, 카메라 회전이 단순한 픽셀 이동으로 치환되어 공간적 연속성을 유지하기 훨씬 유리하다. 이는 Embedding 공간에서 공간적 관계를 더 명확하게 정의할 수 있게 한다.
여기에 '프리뷰-리파인' 전략을 더했다. 먼저 저해상도로 빠르게 전체 경로를 훑으며 공간의 뼈대를 잡고(Preview), 이후 이 뼈대를 바탕으로 시간적 밀도를 높이고 해상도를 올리는(Refine) 과정을 거친다. 이는 마치 화가가 밑그림을 먼저 그리고 세밀한 묘사를 더하는 것과 같은 원리로, 장기적인 구조적 일관성을 보장하면서도 고화질 결과물을 얻는 방식이다.
방법론
프리뷰 단계(Preview Stage)에서는 사전 학습된 Diffusion Transformer인 Wan2.1을 기반으로 480x960 해상도의 81프레임 비디오를 생성한다. 이때 카메라 궤적은 방향 벡터인 Flow()와 이동 거리인 Scale()로 분해되어 입력된다. Flow는 각 트랜스포머 블록에 삽입된 제로 초기화(zero-initialized) 인코더를 통해 프레임별로 주입되며, Scale은 로그 공간 임베딩을 통해 전체 토큰에 글로벌하게 적용된다.
리파인 단계(Refine Stage)에서는 생성된 프리뷰 비디오를 입력받아 720x1440 해상도로 업스케일링하고 시간적으로 확장한다. 계산 효율성을 위해 전체 비디오를 여러 세그먼트로 나누어 처리하며, 가시성 마스크(Visibility Mask)를 사용하여 프리뷰 프레임 중 생성에 필요한 정보만 선택적으로 참조한다.
학습에는 Rectified Flow 프레임워크를 사용한다. 노이즈()와 데이터() 사이를 선형 보간하는 과정을 통해 속도 필드(velocity field) 를 예측하도록 학습된다. [노이즈 섞인 잠재 변수와 조건 정보를 입력으로] → [트랜스포머를 통해 속도 벡터를 연산하여] → [데이터로 향하는 최단 경로 방향을 얻고] → [이 값을 통해 모델 가중치를 갱신하여 생성 품질을 높이는 의미]를 가진다.
주요 결과
Matrix-3D 및 Imagine360과의 비교 실험에서 모든 지표가 우수하게 나타났다. 480p 해상도에서 FAED(시각적 품질) 점수 5.27을 기록하여 Matrix-3D(8.64)보다 뛰어난 화질을 보였으며, SSIM(0.70)과 LPIPS(0.18)에서도 가장 높은 성능을 달성했다.
궤적 제어 능력(Trajectory Controllability) 평가에서 PSNR 수치가 모든 시간 구간(25, 55, 75프레임)에서 경쟁 모델을 압도했다. 특히 장기 비디오(641프레임) 생성 시에도 PSNR 18.24를 유지하며 지정된 경로를 정확히 따르는 것이 확인됐다.
새로 제안된 루프 일관성() 지표에서 2.34(480p) 및 1.96(720p)을 기록하여, 기존 모델(1.38~1.41) 대비 공간적 일관성이 약 40% 이상 향상되었음을 입증했다. 이는 카메라가 한 바퀴 돌아왔을 때 시작점의 장면을 거의 완벽하게 재현함을 의미한다.
기술 상세
전체 구조는 Diffusion Transformer(DiT) 아키텍처를 기반으로 하며, 파노라마 데이터의 특성을 반영하기 위해 Equirectangular Projection(ERP) 좌표계를 사용한다. ERP 환경에서 카메라 회전은 단순한 수평 픽셀 이동(cyclic shift)으로 처리되므로, 모델은 순수하게 평행 이동(translation)에만 집중하여 학습할 수 있어 기하학적 일관성 유지가 용이하다.
궤적 분해 기법은 (단위 방향 벡터)와 (스칼라 속도)를 독립적으로 처리한다. 이는 학습 시 다양한 속도의 데이터를 효과적으로 학습하게 하며, 추론 시에는 단일 파라미터() 조절만으로 재생 속도를 변경할 수 있는 유연성을 제공한다. Flow 정보는 Zero-initialized 인코더를 통해 주입되어 초기 학습의 안정성을 보장한다.
리파인 단계의 가시성 마스크 는 프리뷰 비디오에서 현재 생성 중인 세그먼트와 대응되는 프레임을 1, 나머지를 0으로 설정하여 조건부 생성을 수행한다. 이를 통해 긴 비디오 생성 시 발생하는 메모리 문제를 해결하면서도 전역적인 일관성을 유지하며, 세그먼트 간의 경계가 자연스럽게 연결되도록 한다.
실무 활용
가상 부동산 투어, 게임 환경 생성, 3D 장면 재구성 등 광범위한 공간 탐험 시나리오에 즉시 활용 가능하다.
- 부동산 매물 내부를 자유롭게 돌아다니는 가상 투어 영상 생성
- 텍스트나 이미지를 기반으로 한 게임용 360도 배경 리소스 제작
- 생성된 비디오를 활용한 고품질 3D 가우시안 스플래팅(3DGS) 장면 복원
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.