핵심 요약
기존 비디오 생성 모델은 좁은 시야각으로 인해 카메라가 멀리 이동하면 배경의 일관성이 깨지는 문제가 있었다. OmniRoam은 파노라마 표현형을 도입해 전 방향의 정보를 동시에 처리함으로써, 아주 긴 경로를 이동해도 풍경이 변하지 않고 유지되는 고화질 가상 세계 유람을 가능하게 한다.
왜 중요한가
기존 비디오 생성 모델은 좁은 시야각으로 인해 카메라가 멀리 이동하면 배경의 일관성이 깨지는 문제가 있었다. OmniRoam은 파노라마 표현형을 도입해 전 방향의 정보를 동시에 처리함으로써, 아주 긴 경로를 이동해도 풍경이 변하지 않고 유지되는 고화질 가상 세계 유람을 가능하게 한다.
핵심 기여
Preview-Refine 2단계 생성 프레임워크
저해상도로 전체 장면 구조와 카메라 궤적을 빠르게 생성하는 Preview 단계와, 이를 고해상도로 업샘플링하고 세부 사항을 채우는 Refine 단계를 분리하여 장거리 비디오의 일관성과 품질을 동시에 확보했다.
Flow와 Scale로 분해된 궤적 제어
카메라의 이동 방향(Flow)과 보폭/속도(Scale)를 독립적인 인자로 분해하여 제어함으로써, 사용자 의도에 따른 정밀한 카메라 워킹 구현이 가능하다.
Loop Consistency 평가 지표 제안
카메라가 한 바퀴 돌아 제자리로 왔을 때의 시각적 일치도를 측정하는 새로운 지표를 도입하여, 장기 비디오 생성 모델의 전역적 공간 일관성을 정량적으로 평가할 수 있게 했다.
실사 및 합성 데이터 통합 파이프라인
2,000개의 실사 파노라마 비디오와 1,000개의 3DGS 장면에서 렌더링한 정밀 궤적 데이터를 결합한 하이브리드 데이터셋을 구축하여 모델의 기하학적 이해도를 높였다.
핵심 아이디어 이해하기
기존의 비디오 생성 모델은 특정 방향만 바라보는 Perspective 방식을 사용하기 때문에, 카메라가 이동하며 시야에서 사라진 배경 정보를 기억하기 어렵다. 이는 Transformer의 Self-Attention이 시퀀스가 길어질수록 과거의 공간 정보를 소실하거나 왜곡하는 한계와 연결된다.
OmniRoam은 '파노라마'를 기본 단위로 삼아 이 문제를 해결한다. 한 프레임에 360도 전 방향의 정보를 담고 있으므로, 카메라가 어느 방향으로 움직이더라도 주변 환경에 대한 전역적인 기억(Global Memory)이 프레임 내에 보존된다. 이는 마치 지도를 들고 여행하는 것과 같아서 이동 중에도 위치 관계가 어긋나지 않는다.
또한, 한 번에 고화질 긴 영상을 만드는 대신 'Global-to-Local' 전략을 취한다. 먼저 저해상도로 전체 경로를 빠르게 훑는 미리보기를 생성하여 큰 틀의 일관성을 고정하고, 이후 국소적인 디테일을 덧입히는 방식을 통해 장거리 이동 시 발생하는 누적 오차와 화질 저하를 획기적으로 줄였다.
방법론
Preview Stage는 Wan2.1-1.3B 기반의 Diffusion Transformer를 파인튜닝하여 480x960 해상도의 비디오를 생성한다. 입력 이미지와 사용자 정의 카메라 궤적을 조건으로 받으며, 궤적 정보는 방향 벡터인 Flow와 이동 거리의 로그값인 Scale로 인코딩되어 모델에 주입된다. [실수값 Scale s 입력 -> log(s) 연산 후 Linear Layer 통과 -> 벡터 zs 출력 -> 이 값은 비디오의 재생 속도와 이동 보폭을 결정하는 전역 가이드가 된다.]
Refine Stage는 Preview에서 생성된 비디오를 입력받아 720x1440 해상도로 확장한다. 세그먼트 단위 확산(Segment-wise Diffusion) 기법을 사용하며, 각 세그먼트 생성 시 Preview 프레임을 참조하기 위한 바이너리 가시성 마스크(Visibility Mask)를 활용한다. [Preview 비디오 입력 -> 마스크 m과의 원소별 곱셈(Hadamard Product) 수행 -> 마스킹된 잠재 변수 출력 -> 생성 시 참조할 시각적 힌트로 작용하여 시간적 연속성을 보장한다.]
학습 과정에서는 회전 불변 좌표계(Rotation-invariant Coordinate System)를 도입하여 카메라의 자체 회전(Roll, Pitch, Yaw)을 배제하고 순수 평행 이동(Translation)에만 집중하도록 설계했다. 이를 통해 생성 공간을 단순화하고 물리적으로 타당한 움직임을 학습할 수 있도록 유도했다.
주요 결과
OmniRoam은 시각적 품질 지표인 FAED에서 480p 기준 5.27을 기록하여 기존 SOTA 모델인 Matrix-3D(8.64)보다 우수한 성능을 보였다. 특히 장기 일관성을 측정하는 Loop Consistency 점수에서 2.34를 달성하여, 기존 모델들이 1.4 내외에 머무는 것과 대조적으로 압도적인 공간 유지 능력을 입증했다.
궤적 제어 정확도를 측정하는 PSNR 실험에서도 641프레임 이상의 긴 시퀀스 동안 성능 저하 없이 안정적인 수치를 유지했다. 이는 기존의 자기회귀(Autoregressive) 방식이 시간이 지남에 따라 급격히 품질이 떨어지는 것과 차별화되는 결과이다. 또한, 생성된 비디오를 기반으로 3D Gaussian Splatting 복원을 수행했을 때 구조적으로 결함 없는 3D 장면이 재구성됨을 확인했다.
기술 상세
OmniRoam의 아키텍처는 Diffusion Transformer(DiT)를 기반으로 하며, 3D Variational Autoencoder(VAE)를 통해 비디오를 잠재 공간(Latent Space)으로 압축하여 처리한다. Preview 모델은 81프레임의 비디오를 생성하며, Flow 임베딩은 Zero-initialized 선형 레이어를 통해 각 트랜스포머 블록에 주입되어 프레임별 이동 방향을 가이드한다.
Refine 모델은 시간적 해상도를 확장하기 위해 Preview 비디오를 조건으로 사용하며, 이때 Scale Alignment 기법을 통해 서로 다른 재생 속도 간의 일관성을 맞춘다. 학습 목적 함수로는 Rectified Flow를 채택하여 데이터와 노이즈 사이의 직선 경로를 학습함으로써 추론 효율성을 높였다. 또한, 실시간 미리보기를 위해 Self-forcing 기법을 적용한 경량화된 자기회귀 모델로의 증류(Distillation) 가능성도 제시했다.
한계점
논문은 현재 모델이 주로 실내 및 정적인 풍경 장면에 최적화되어 있으며, 움직이는 물체가 많은 복잡한 동적 장면에서의 일관성 유지는 향후 과제로 남아있음을 명시했다.
실무 활용
OmniRoam은 고품질의 가상 투어 콘텐츠 제작이나 게임 환경 구축, 3D 장면 복원 등 다양한 실무 분야에 즉시 적용 가능한 기술이다.
- 가상 부동산 투어: 실내 사진 한 장으로 집 전체를 둘러보는 고화질 가상 투어 영상 자동 생성
- 게임 및 메타버스: 텍스트나 이미지를 기반으로 탐험 가능한 광활한 360도 배경 환경 구축
- 3D 장면 복원: 생성된 일관된 비디오를 소스로 사용하여 실제 물리 공간과 유사한 3D 가우시안 모델 생성
- 드론 및 로봇 시뮬레이션: 특정 경로를 따라 이동하는 가상 환경 비디오를 생성하여 자율 주행 학습 데이터로 활용
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.