핵심 요약
기존의 비디오 생성 모델은 긴 시간 동안의 일관된 공간 유지와 실시간 상호작용에 한계가 있었다. 이 논문은 단일 영상만으로 사용자가 자유롭게 탐험할 수 있는 고화질 4D 환경을 실시간으로 생성하며, 특히 로봇 지능 및 자율주행 시뮬레이션의 핵심인 물리적 사실성과 제어 정밀도를 크게 향상시켰다.
왜 중요한가
기존의 비디오 생성 모델은 긴 시간 동안의 일관된 공간 유지와 실시간 상호작용에 한계가 있었다. 이 논문은 단일 영상만으로 사용자가 자유롭게 탐험할 수 있는 고화질 4D 환경을 실시간으로 생성하며, 특히 로봇 지능 및 자율주행 시뮬레이션의 핵심인 물리적 사실성과 제어 정밀도를 크게 향상시켰다.
관련 Figure

단일 영상에서 자유로운 공간 로밍, 시간 제어, 물리적 사실성 유지가 가능함을 보여준다. 하단에는 이를 활용한 로봇 지능 및 자율주행 시뮬레이션 응용 사례를 제시하여 모델의 범용성을 강조한다.
INSPATIO-WORLD의 전체적인 기능과 응용 분야를 보여주는 개요도이다.
핵심 기여
STAR(Spatio-Temporal Auto-Regressive) 아키텍처
암시적 시공간 캐시와 명시적 공간 제약 모듈을 결합하여 장기 항행 중에도 공간적 일관성을 유지하고 사용자의 카메라 조작에 실시간으로 반응하는 프레임워크를 구축했다.
JDMD(Joint Distribution Matching Distillation) 기법
합성 데이터의 완벽한 기하학적 제어력과 실제 데이터의 고해상도 질감을 동시에 학습하기 위해 두 종류의 교사 모델을 사용하는 다중 작업 증류 방식을 도입하여 시각적 품질 저하 문제를 해결했다.
실시간 4D 렌더링 성능 달성
경량화된 Tiny-VAE와 그래프 수준 컴파일 최적화를 통해 H-시리즈 GPU에서 24 FPS, 소비자용 RTX 4090 GPU에서 10 FPS의 실시간 추론 속도를 구현했다.
핵심 아이디어 이해하기
기존의 비디오 생성 모델은 이전 프레임을 참고하여 다음 프레임을 만드는 Autoregressive 방식을 사용하지만, 시간이 지날수록 초기 구조를 잊어버리는 '상태 드리프트(State Drift)' 현상이 발생한다. 이는 모델이 공간의 전체적인 기하학적 구조를 이해하지 못한 채 픽셀의 변화에만 집중하기 때문이다.
INSPATIO-WORLD는 이를 해결하기 위해 '시공간 캐시'라는 메모리 시스템을 도입했다. 마치 사람이 방 안을 돌아다닐 때 이전에 본 가구의 위치를 기억하는 것처럼, 참조 영상의 특징과 이전에 생성된 정보를 고정된 창(Sliding Window) 안에 저장하여 전역적인 일관성을 유지한다. 여기에 사용자의 입력을 6자유도(6-DoF) 카메라 궤적으로 변환하여 모델에 직접 주입함으로써 물리적으로 타당한 시점 변화를 유도한다.
결과적으로 모델은 단순히 영상을 재생하는 것이 아니라, 학습된 공간 정보를 바탕으로 사용자의 움직임에 맞춰 실시간으로 새로운 시점의 영상을 렌더링하게 된다. 이는 정적인 영상 데이터를 동적이고 상호작용 가능한 '살아있는 세계'로 변환하는 핵심 원리이다.
방법론
전체 시스템은 STAR(Spatio-Temporal Auto-Regressive) 프레임워크를 기반으로 하며, 단일 참조 비디오를 입력받아 연속적인 잠재 블록(Latent Blocks)을 생성한다. 생성 과정은 이전 블록의 정보, 참조 영상의 특징, 그리고 사용자의 조작 명령이라는 세 가지 조건에 의해 제어된다.
핵심 메커니즘인 시공간 캐시는 참조 영상에서 추출된 특징(z_ref)을 전역 앵커로 사용하고, 직전에 생성된 잠재값(z_i-1)을 슬라이딩 윈도우 방식으로 저장한다. [이전 생성값과 참조 특징 입력 → KV 캐시 내 결합 및 저장 → DiT 블록의 Attention 연산 시 참조 → 시공간적으로 일관된 다음 프레임 출력] 과정을 통해 장기 생성 시 발생하는 구조적 왜곡을 방지한다.
명시적 공간 제약 모듈은 사용자의 회전 및 이동 명령을 6-DoF 상대 포즈 변화량(ΔT_i)으로 매핑한다. [사용자 입력 조작 → 누적된 전역 포즈 T_i 계산 → 참조 특징을 현재 시점으로 투영(Warping) → 기하학적으로 정렬된 가이드 특징 생성] 순서로 작동하며, 이를 통해 모델이 사용자의 의도대로 정확한 시점 변화를 구현하도록 강제한다.
학습 단계에서는 JDMD(Joint Distribution Matching Distillation)를 사용한다. 합성 데이터로 학습된 '모션 교사'로부터 정밀한 움직임 제어를 배우고, 실제 데이터 기반의 '지각 교사'로부터 고해상도 질감을 배운다. [두 교사 모델의 예측값과 학생 모델의 출력 비교 → KL Divergence 기반의 그래디언트 계산 → 가중치 공유를 통한 다중 작업 최적화 → 제어력과 화질의 균형 달성] 원리로 학습이 진행된다.
관련 Figure

입력 준비 과정에서 깊이 기반 워핑을 통해 기하학적 제약을 생성하고, DiT 블록 내 시공간 캐시가 어떻게 작동하는지 상세히 설명한다. 하단의 JDMD 부분은 두 교사 모델을 통한 다중 작업 학습 구조를 명확히 보여준다.
STAR 프레임워크와 JDMD 학습 파이프라인의 상세 아키텍처 다이어그램이다.
주요 결과
WorldScore-Dynamic 벤치마크에서 68.72점을 기록하며 실시간/상호작용형 모델 중 1위를 차지했다. 특히 카메라 제어 정확도(81.51)와 사진 품질(93.00) 지표에서 기존 SOTA 모델들을 압도하는 성능을 보였다. 이는 시공간 캐시를 통한 안정적인 구조 유지와 JDMD를 통한 화질 개선 효과가 실질적으로 증명된 결과이다.
RE10K-Long 데이터셋을 이용한 장기 생성 실험에서도 뛰어난 성과를 거두었다. FID 42.68, FVD 100.55를 기록하여 기존 모델인 LingBot-World(FID 64.84, FVD 173.02) 대비 시각적 품질을 크게 향상시켰으며, 궤적 오차(Rot, Trans) 또한 경쟁 모델들보다 현저히 낮은 수치를 기록하여 장시간 주행 시에도 경로 이탈이나 구조 붕괴가 거의 없음을 확인했다.
효율성 측면에서는 1.3B 파라미터 규모의 모델로 최적화를 통해 H-시리즈 GPU에서 24 FPS의 실시간 성능을 달성했다. 이는 성능과 연산 비용 사이의 효율적인 트레이드오프를 성공적으로 찾아내어 실제 서비스 적용 가능성을 높였다는 점에서 의미가 크다.
관련 Figure

INSPATIO-WORLD가 다른 모델들에 비해 훨씬 적은 연산 비용(좌측 상단 위치)으로도 가장 높은 동적 점수를 획득했음을 보여준다. 이는 모델의 효율성과 성능의 우수한 균형을 시각적으로 증명한다.
WorldScore-Dynamic 벤치마크에서 모델 파라미터 및 연산량 대비 성능을 비교한 버블 차트이다.

다른 모델들이 시간이 지남에 따라 구조적 왜곡이나 흐릿해짐이 발생하는 반면, 본 모델은 원본의 구조와 질감을 끝까지 유지하며 정확한 카메라 궤적을 따라가는 것을 확인할 수 있다.
RE10K-Long 데이터셋에서 여러 모델의 장기 생성 결과를 비교한 정성적 분석 이미지이다.

복잡한 인물 및 배경이 포함된 영상에서도 원본의 세부 질감을 가장 잘 보존하면서도 사용자의 카메라 조작에 따른 시점 변화를 자연스럽게 구현함을 보여준다.
카메라 제어 기반 비디오 재렌더링 작업에서 타 모델과의 화질 및 구조 보존력을 비교한 결과이다.
기술 상세
INSPATIO-WORLD는 DiT(Diffusion Transformer) 아키텍처를 기반으로 하며, Wan2.1을 백본으로 채택했다. 아키텍처의 핵심은 KV 캐시에 참조 프레임을 주입하여 전역적인 시공간 앵커로 활용하는 방식이다. 이는 RoPE(Rotary Position Embedding) 사용 시 발생하는 시퀀스 길이에 따른 분포 변화 문제를 해결하기 위해 위치 인덱스를 고정하는 전략과 결합되어 수치적 안정성을 확보했다.
메모리 효율성을 위해 '청크 단위 역전파(Chunk-wise Backpropagation)' 전략을 도입했다. 이는 전체 시퀀스를 한 번에 학습할 때 발생하는 메모리 병목을 해결하기 위해, 1단계에서 그래디언트 없이 전체 추론을 수행하여 손실값을 계산하고, 2단계에서 청크별로 순방향 실행을 재수행하며 역전파를 트리거하는 시간-공간 트레이드오프 기법이다.
JDMD 학습 알고리즘은 수식 ∇θL_JDMD = ∇L_vis + λ_ctrl∇L_ctrl을 통해 시각적 충실도와 모션 제어력을 동시에 최적화한다. 여기서 L_vis는 실제 데이터 분포(Wan-T2V)를 따르도록 유도하고, L_ctrl은 합성 데이터로 미세 조정된 모션 교사를 따르도록 하여 합성 데이터 특유의 질감 저하(Texture Smoothing) 문제를 극복했다.
한계점
현재 시스템은 생성된 영역에 대한 장기적인 세밀한 질감 기억이 부족하며, 360도 전방위 동적 로밍 시 다중 시점 일관성을 유지하는 데 한계가 있다. 특히 광각이나 전방위 시점 전환 시 동적 요소들의 시공간적 결합성을 완벽하게 유지하는 것은 여전히 해결해야 할 과제로 남아 있다.
실무 활용
단일 영상만으로 상호작용 가능한 4D 환경을 구축할 수 있어 가상 현실, 게임, 로봇 학습 등 다양한 분야에 즉시 적용 가능하다.
- 자율주행 AI 학습을 위한 실제 도로 영상 기반의 고정밀 시뮬레이션 환경 구축
- 부동산 매물 영상을 활용한 실시간 가상 투어 및 자유 시점 탐색 서비스
- 로봇의 조작 지능(Embodied AI) 훈련을 위한 물리 기반 상호작용 데이터 생성
- 기존 영화나 개인 촬영 영상을 1인칭 탐험형 콘텐츠로 변환하는 엔터테인먼트 도구
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.