핵심 요약
기존 멀티모달 모델은 텍스트와 이미지는 잘 이해하지만, 물체의 입체적 위치나 물리적 관계를 파악하는 '공간적 맹목성' 문제를 겪어왔다. 이 논문은 비디오 생성 모델이 일관된 영상을 만들기 위해 내부적으로 학습한 3D 구조와 물리 법칙을 추출하여 이 문제를 해결한다. 별도의 3D 데이터 없이도 로봇 조작이나 복잡한 공간 추론 성능을 크게 향상시킬 수 있는 새로운 패러다임을 제시한다.
왜 중요한가
기존 멀티모달 모델은 텍스트와 이미지는 잘 이해하지만, 물체의 입체적 위치나 물리적 관계를 파악하는 '공간적 맹목성' 문제를 겪어왔다. 이 논문은 비디오 생성 모델이 일관된 영상을 만들기 위해 내부적으로 학습한 3D 구조와 물리 법칙을 추출하여 이 문제를 해결한다. 별도의 3D 데이터 없이도 로봇 조작이나 복잡한 공간 추론 성능을 크게 향상시킬 수 있는 새로운 패러다임을 제시한다.
핵심 기여
비디오 생성 모델을 잠재적 세계 시뮬레이터로 재구성
학습된 비디오 확산 모델이 일관된 영상을 생성하기 위해 내재화한 3D 구조와 물리 법칙을 장면 이해를 위한 사전 지식으로 활용하는 프레임워크를 제안한다.
토큰 레벨 적응형 게이트 퓨전 메커니즘 도입
의미론적 특징을 담당하는 인코더와 기하학적 특징을 담당하는 생성 모델의 출력을 토큰 단위로 동적으로 결합하여, 작업에 따라 필요한 정보를 선택적으로 활용하게 한다.
멀티뷰 특징 일관성 분석을 통한 3D 인지 능력 검증
다양한 각도에서 본 특징들의 일관성을 측정하는 Multi-view Correspondence Score를 정의하고, 이것이 실제 3D 이해 성능과 높은 상관관계가 있음을 입증한다.
명시적 3D 감독 학습 없는 고성능 달성
포인트 클라우드나 깊이 지도 같은 추가적인 3D 데이터나 복잡한 렌더링 파이프라인 없이도 기존의 3D 특화 모델들을 뛰어넘는 성능을 보여준다.
핵심 아이디어 이해하기
기존의 멀티모달 대형 언어 모델(MLLM)은 이미지 속 물체가 무엇인지는 잘 맞추지만, 그 물체가 공간상에서 정확히 어디에 있고 다른 물체와 어떤 물리적 관계를 맺고 있는지 파악하는 데 한계가 있다. 이는 주로 2D 이미지-텍스트 쌍으로만 학습되어 입체적인 공간 감각, 즉 '3D Prior'가 부족하기 때문이다. 반면, 비디오 생성 모델은 시간에 따라 움직이는 카메라 경로와 물체의 변화를 어색함 없이 생성해야 하므로, 내부적으로 물체의 3D 형태와 가려짐(Occlusion), 물리적 움직임을 완벽하게 이해하고 있어야만 한다.
연구진은 비디오 확산 모델(Video Diffusion Model)의 중간 단계에서 노이즈를 제거하는 과정 중에 가장 풍부한 기하학적 정보가 생성된다는 점을 발견했다. 이 정보를 추출하여 기존 MLLM의 시각 인코더와 결합함으로써, 모델에게 '공간을 보는 눈'을 이식한다. 결과적으로 모델은 단순히 이미지를 인식하는 수준을 넘어, 공간의 깊이와 구조를 이해하며 추론할 수 있게 된다.
이 접근법은 비디오 모델이 이미 학습한 '세상의 물리 법칙'을 재활용하는 것이 핵심이다. 마치 사람이 영화를 보며 가보지 않은 장소의 구조를 파악하듯, AI도 생성 모델의 상상력을 빌려 정적인 이미지 뒤에 숨겨진 3D 공간을 재구성하는 원리이다.
방법론
전체 구조는 시각적 의미를 담당하는 Semantic Encoder(예: SigLIP)와 기하학적 구조를 담당하는 Generative Encoder(예: Wan2.1)의 이중 분기 구조로 설계됐다. 입력 비디오 V를 잠재 공간 z₀로 매핑한 후, 특정 타임스텝 k의 노이즈를 주입하여 zₖ를 생성한다. [입력 비디오 → VAE 인코딩 및 노이즈 주입 → 노이즈가 섞인 잠재 변수 zₖ 생성 → 생성 모델의 복원 능력을 자극하기 위한 입력값]
생성 인코더의 중간 DiT(Diffusion Transformer) 레이어 l에서 특징 f_raw를 추출한다. 이때 텍스트 프롬프트는 빈 값으로 설정하여 모델이 순수하게 시각적 신호와 학습된 물리 법칙에만 집중하게 한다. [zₖ와 빈 프롬프트 입력 → DiT 레이어 연산 → 기하학적 특징 f_raw 출력 → 추상적인 공간 정보 추출]
추출된 생성 특징 f_gen과 의미 특징 f_sem은 Adaptive Gated Fusion 모듈을 통해 결합된다. 각 토큰 위치 i에서 게이트 값 gᵢ를 계산하여 두 특징의 가중합을 구한다. [두 특징의 연결(Concat) 및 레이어 정규화 → 시그모이드 함수 적용 → 0~1 사이의 게이트 값 gᵢ 산출 → 작업 맥락에 따른 의미와 구조 정보의 최적 배합]
주요 결과
3D 장면 이해 벤치마크인 ScanRefer에서 Acc@0.5 기준 56.2%를 기록하며 기존 Video-3D LLM(51.7%) 대비 큰 폭의 성능 향상을 보였다. 특히 SQA3D에서 61.3%의 정확도를 달성하며 일반화된 3D 추론 능력을 입증했다.
공간 추론 전용 벤치마크인 VSI-Bench에서 평균 50.5점을 기록하여 GPT-4o(34.0점)나 Gemini 1.5 Pro(45.4점)와 같은 상용 모델보다 우수한 공간 인지 능력을 보여주었다. 객체 수 세기, 절대 거리 측정 등 수치적 답변이 필요한 항목에서 강점을 보였다.
로봇 조작 시뮬레이션인 LIBERO 벤치마크에서도 평균 성공률 97.3%를 달성했다. 이는 명시적인 로봇 동작 학습 없이도 비디오 모델의 물리적 사전 지식이 실제 에이전트의 행동 결정에 효과적으로 기여할 수 있음을 의미한다.
실무 활용
별도의 3D 스캔 데이터 없이 비디오 생성 모델만으로 고성능 공간 인지 시스템을 구축할 수 있어, 자율 주행이나 서비스 로봇 분야에서 즉각적인 활용이 가능하다.
- 실내 서비스 로봇의 복잡한 공간 명령 수행 (예: '냉장고 옆 두 번째 칸에 있는 컵 가져와')
- 자율 주행 시스템의 주변 지형 및 물체 간 거리 정밀 추론
- 증강 현실(AR) 환경에서의 가상 물체와 실제 지형 간의 물리적 상호작용 시뮬레이션
- 비디오 보안 시스템에서의 이상 행동 및 위험 상황 공간 분석
기술 상세
VEGA-3D는 비디오 확산 모델을 '잠재적 세계 시뮬레이터(Latent World Simulator)'로 재정의한다. 핵심은 Flow Matching 기반의 확산 모델에서 중간 노이즈 레벨(t=0.3)과 중간 레이어(20번째 DiT 블록)가 기하학적 정밀도와 추상적 맥락 사이의 최적의 균형점을 제공한다는 발견이다.
Multi-view Correspondence Score를 통해 모델의 3D 인지 능력을 정량화했다. 이는 서로 다른 시점에서 촬영된 영상 토큰들을 3D 복셀 그리드에 투영한 후 코사인 유사도를 측정하는 방식이다. DiT 기반 모델(Wan2.1)이 UNet 기반 모델(SVD)보다 훨씬 높은 일관성(>96%)을 보임을 확인했다.
Adaptive Gated Fusion은 토큰별로 gᵢ = σ(Wᵀ[LN(F_gen), LN(F_sem)] + b)를 계산하여 F_fused = (1-gᵢ)F_gen + gᵢF_sem으로 결합한다. 이는 모델이 물체 인식(Semantic)이 필요한 토큰과 위치 파악(Generative)이 필요한 토큰을 스스로 구분하여 학습하게 한다.
추론 시 오버헤드를 줄이기 위해 비디오 장면당 한 번만 생성 특징을 추출하여 캐싱하는 전략을 사용한다. 이를 통해 추가적인 생성 분기에도 불구하고 실시간에 가까운 응답 속도를 유지한다.
한계점
비디오 생성 모델을 백본으로 사용함에 따라 추론 시 메모리 사용량과 연산 비용이 증가한다. 또한 최적의 특징 추출을 위한 타임스텝과 레이어 선택이 현재는 수동으로 이루어지며, 실험이 주로 실내 환경에 집중되어 있어 동적인 야외 환경으로의 확장이 과제로 남아있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료