핵심 요약
기존 비디오 생성 모델이 긴 시간 동안 배경 일관성을 유지하지 못하거나 움직이는 물체를 처리하는 데 한계가 있었던 문제를 해결했다. 명시적인 3D 구조와 유연한 신경망 학습의 장점을 결합하여, 사용자가 카메라 경로를 정교하게 제어하고 장면을 자유롭게 편집할 수 있는 가상 세계 시뮬레이터의 기반을 마련했다.
왜 중요한가
기존 비디오 생성 모델이 긴 시간 동안 배경 일관성을 유지하지 못하거나 움직이는 물체를 처리하는 데 한계가 있었던 문제를 해결했다. 명시적인 3D 구조와 유연한 신경망 학습의 장점을 결합하여, 사용자가 카메라 경로를 정교하게 제어하고 장면을 자유롭게 편집할 수 있는 가상 세계 시뮬레이터의 기반을 마련했다.
핵심 기여
하이브리드 공간 메모리 MosaicMem 제안
2D 패치를 3D 공간으로 투영하여 위치를 고정하는 명시적 방식과 모델의 Attention을 활용하는 암시적 방식을 결합하여, 배경의 고정성과 물체의 동적 변화를 동시에 확보했다.
Warped RoPE 및 Latent 정렬 기법 도입
카메라 움직임에 맞춰 위치 인코딩과 잠재 특징을 기하학적으로 왜곡하여 프레임 간 픽셀 단위 정렬 정확도를 높이고 시점 변화에 따른 드리프트를 방지했다.
PRoPE 카메라 제어 모듈 최적화
DiT 아키텍처의 시간적 압축 특성을 고려하여 투영 위치 인코딩을 확장 적용함으로써, 복잡한 카메라 궤적에서도 정교한 시점 제어가 가능하도록 설계했다.
핵심 아이디어 이해하기
비디오 생성에서 Attention 메커니즘은 프레임 간의 연관성을 계산하지만, 물리적인 3D 공간 좌표를 직접 이해하지는 못한다. 이로 인해 카메라가 움직였다가 다시 돌아왔을 때, 모델은 이전에 봤던 배경의 정확한 위치를 기억하지 못하고 새로운 이미지를 그려내는 할루시네이션이 발생한다. 기존의 3D 점 구름 방식은 배경은 잘 고정하지만, 그 위에서 움직이는 물체를 표현하는 데는 유연성이 부족하다는 한계가 있었다.MosaicMem은 비디오의 각 조각인 패치를 3D 공간의 특정 좌표에 고정하는 방식을 취한다. 마치 모자이크 타일을 벽에 붙이듯, 과거에 본 장면의 패치들을 3D 좌표계에 저장해두었다가 새로운 시점에서 필요할 때마다 정확한 위치에 다시 불러온다. 이때 단순히 이미지를 붙이는 것이 아니라, 모델의 내부 연산 과정에서 이 정보가 자연스럽게 섞이도록 설계하여 움직이는 물체도 자연스럽게 그려낼 수 있게 한다.특히 카메라가 움직일 때 위치 정보가 어긋나지 않도록 Warped RoPE라는 기술을 사용한다. 이는 수학적으로 현재 시점에서 과거 패치가 어디에 보여야 하는지를 계산하여 위치 인코딩을 실시간으로 수정하는 원리다. 결과적으로 모델은 특정 위치에 예전에 본 사물이 있어야 한다는 사실을 명확히 인지하면서도, 텍스트 프롬프트에 따라 새로운 움직임을 추가할 수 있는 능력을 갖추게 된다.
방법론
전체 시스템은 Flow Matching 기반의 Wan 2.2 모델을 백본으로 하며, 공간 메모리 M을 조건부 입력으로 추가한다. 2D 패치를 3D로 들어올리는 Lifting 단계와 이를 새로운 시점에 투영하여 결합하는 Patch-and-compose 인터페이스를 통해 메모리를 관리한다. [입력 이미지와 깊이 정보 → 3D 공간 투영 → 메모리 저장 → 쿼리 시점에 따른 재투영] 과정을 거쳐 시공간적으로 정렬된 참조 신호를 생성한다.Warped RoPE는 소스 좌표 (u, v)와 깊이 D를 입력으로 받아 시점 변환 행렬 연산을 수행하여 타겟 시점의 좌표 (u', v')를 계산한다. [픽셀 좌표와 깊이 → 시점 변환 행렬 곱셈 → 투영된 2D 좌표 → 위치 인코딩의 기준점] 순으로 계산되며, 이는 모델이 과거의 시각 정보를 현재 시점의 정확한 기하학적 위치에 배치하도록 강제하는 역할을 한다. 또한 Warped Latent 기법을 병행하여 잠재 특징 공간에서도 직접적인 샘플링 정렬을 수행한다.카메라 제어를 위해 PRoPE(Projective Positional Encoding)를 도입하여 상대적인 카메라 절두체 기하 구조를 Self-Attention 레이어에 주입한다. 3D VAE의 4배 시간적 압축을 고려하여, 하나의 잠재 프레임 토큰이 4개의 원본 카메라 행렬 정보를 모두 참조할 수 있도록 Unfold 연산을 적용했다. 이를 통해 미세한 프레임 단위의 움직임까지 모델이 학습하고 재현할 수 있도록 구현했다.
주요 결과
MosaicMem은 카메라 제어 정확도에서 RotErr 0.51도, TransErr 0.06을 기록하여 기존 모델 대비 월등한 성능을 보였다. 시각적 품질 지표인 FVD에서도 232.95를 달성하여 GEN3C(372.08)나 CaM(392.11)보다 자연스러운 영상을 생성했다. 특히 일관성 점수(SSIM 0.75)에서 명시적 메모리 방식보다 높은 수치를 기록하며 장기적인 장면 유지 능력을 증명했다.동적 객체 처리 능력을 나타내는 Dynamic Score에서 2.58점을 기록하여, 정적인 장면 생성에 그쳤던 기존 3D 기반 모델(GEN3C 1.21)보다 훨씬 풍부한 움직임을 생성할 수 있음을 확인했다. 이는 하이브리드 방식이 배경의 고정성과 물체의 가변성을 동시에 확보했음을 의미한다. 또한 2분 이상의 긴 비디오 생성에서도 드리프트 없이 일관성을 유지했으며, 메모리 패치를 복사하거나 이동시키는 것만으로도 장면 내 객체를 삭제하거나 중복 생성하는 등의 공간 편집이 가능했다.
실무 활용
고품질의 가상 세계 시뮬레이터나 게임 환경 생성에 즉시 활용 가능하다. 특히 카메라 경로를 자유롭게 조절하면서도 배경이 변하지 않아야 하는 가상 투어 서비스나 로봇 학습용 시뮬레이션 데이터 생성에 적합하다.
- 가상 부동산 투어 및 인테리어 시뮬레이션
- 로봇 자율 주행 학습을 위한 가상 환경 구축
- 비디오 게임 내 동적 배경 및 맵 생성
- 영화 제작 시 정교한 카메라 워크 제어 및 배경 편집
기술 상세
전체 아키텍처는 Wan 2.2 5B DiT 모델을 기반으로 하며, 추출된 메모리 패치를 토큰 시퀀스에 결합하여 입력한다. 3D VAE의 시간적 압축 특성으로 인해 발생하는 위치 정보의 모호성을 해결하기 위해, 각 토큰이 대응하는 여러 프레임의 카메라 행렬을 개별적으로 처리하는 블록 대각 행렬 구조의 PRoPE를 설계했다. 이는 트랜스포머의 어텐션 연산 과정에서 각 시점의 기하학적 제약 조건을 정확히 반영하게 한다.수학적으로 Warped RoPE는 회전 위치 인코딩의 좌표계를 기하학적 투영 공식에 따라 변환한다. 이는 단순한 학습 기반 정렬이 아니라 명시적인 기하학적 제약 조건을 신경망의 위치 인식 능력에 직접 주입하는 방식이다. 또한 Warped Latent는 미분 가능한 이선형 그리드 샘플링을 사용하여 특징 공간에서 직접적인 정렬을 수행함으로써, 자동 회귀 생성 시 발생할 수 있는 시각적 왜곡을 보정한다.Mosaic Forcing은 양방향 확산 모델을 단방향 인과 구조로 증류하여 실시간성을 확보한 자동 회귀 변형 모델이다. 640x360 해상도에서 16 FPS의 속도를 달성했으며, Rolling Forcing 전략을 통해 장기 생성 시 발생하는 오차 누적을 최소화했다. 이를 통해 사용자의 실시간 입력에 반응하면서도 수천 프레임 동안 일관된 세계를 유지하는 시뮬레이션이 가능해졌다.
한계점
카메라 움직임이 매우 느린 극한의 상황에서 Warped RoPE만 사용할 경우, 이전 프레임에서 관찰된 객체가 이미지 경계 근처에서 반복적으로 생성되는 현상이 발생할 수 있음.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료