핵심 요약
기존 시각 언어 모델(VLM)은 비디오 속 객체의 움직임과 카메라의 이동이 결합된 복잡한 4D 동적 장면을 이해하는 데 어려움을 겪었다. 이 논문은 외부 기하학적 모듈 없이 모델 내부의 잠재 공간에서 장면의 진화를 시뮬레이션하는 4DThinker 프레임워크를 통해 자율 주행 및 로보틱스 분야에 필수적인 동적 공간 추론 능력을 획기적으로 개선했다.
왜 중요한가
기존 시각 언어 모델(VLM)은 비디오 속 객체의 움직임과 카메라의 이동이 결합된 복잡한 4D 동적 장면을 이해하는 데 어려움을 겪었다. 이 논문은 외부 기하학적 모듈 없이 모델 내부의 잠재 공간에서 장면의 진화를 시뮬레이션하는 4DThinker 프레임워크를 통해 자율 주행 및 로보틱스 분야에 필수적인 동적 공간 추론 능력을 획기적으로 개선했다.
핵심 기여
4DThinker 프레임워크 제안
VLM이 연속적인 잠재 공간 내에서 장면의 진화를 내부적으로 시뮬레이션하는 '동적 잠재 정신 이미저리'를 통해 4D 사고를 수행할 수 있도록 하는 최초의 프레임워크이다.
확장 가능한 무인 주석 데이터 생성 파이프라인
원시 비디오에서 카메라 및 객체 운동 축을 따라 동적 이해를 분해하고, 텍스트 분석과 동적 정신 이미저리가 교차하는 4D 추론 데이터를 자동으로 합성하는 파이프라인을 설계했다.
Dynamic-Imagery Fine-Tuning (DIFT) 기법
텍스트 토큰에 대한 Cross-Entropy Loss와 잠재 위치에 대한 Cosine Similarity Loss를 공동으로 최적화하여 모델의 내부 4D 잠재 상태를 동적 시각적 의미론에 정렬시킨다.
4D Reinforcement Learning (4DRL) 도입
결과 기반 보상을 통해 복잡한 복합 운동 추론을 강화하며, 정책 그래디언트를 텍스트 토큰으로 제한하여 연속적인 잠재 상태 전파와 이산적 로그 확률 간의 불일치로 인한 불안정성을 방지한다.
관련 Figure

원시 비디오에서 랜드마크를 식별하고 마스크를 추적하여 카메라 및 객체 운동 데이터를 추출하는 과정을 상세히 보여준다. 최종적으로 텍스트 분석과 시각적 이미저리가 결합된 훈련 샘플이 어떻게 구성되는지 명시한다.
비디오 전처리, 운동 중심 QA 구축, 이미저리 기반 CoT 합성의 3단계 데이터 생성 과정을 나타낸다.
핵심 아이디어 이해하기
인간이 동적인 장면을 관찰할 때 주요 지표를 정신적으로 시뮬레이션하여 움직임을 파악한다는 점에 착안했다. 기존 VLM은 시공간적 추론을 텍스트로만 언어화하려 하여 복잡한 역학 관계를 정밀하게 전달하지 못하거나, 외부 기하학적 모듈에 의존하여 추론 복잡도가 증가하는 한계가 있었다.
4DThinker는 이를 해결하기 위해 '정신적 이미저리' 개념을 모델의 Hidden State(은닉 상태)에 직접 주입한다. 텍스트 토큰 사이에 Latent Visual Token(잠재 시각 토큰)을 배치하고, 모델이 다음 토큰을 예측할 때 단순히 글자만 맞추는 것이 아니라 다음에 올 시각적 상태의 Embedding(임베딩)을 함께 예측하도록 학습시킨다.
이 과정에서 모델은 내부적으로 객체의 궤적과 카메라의 움직임을 시뮬레이션하게 된다. 이는 추상적인 텍스트 추론을 구체적인 시각적 의미론과 연결하는 닻 역할을 수행하며, 결과적으로 모델이 물리적 세계의 4차원적 변화를 더 정확하게 '상상'하고 추론할 수 있게 만든다.
방법론
4DThinker의 학습은 두 단계로 구성된다. 첫 번째 단계인 Dynamic-Imagery Fine-Tuning (DIFT)에서는 텍스트 토큰과 잠재 시각 토큰을 공동으로 감독한다. 텍스트 토큰 위치 Ttxt에서는 표준적인 Causal Language Modeling Loss인 Lce를 계산하고, 잠재 토큰 위치 Tlat에서는 현재 은닉 상태 ht-1과 실제 시각 임베딩 zt 사이의 Cosine Similarity를 기반으로 한 Lsim을 계산한다. [ht-1과 zt의 내적을 각 크기의 곱으로 나누어] → [두 벡터 사이의 각도 유사도를 측정하고] → [1에서 이 값을 빼서] → [모델의 내부 상상이 실제 시각 정보와 일치하지 않는 정도를 손실값으로 정의한다].
두 번째 단계인 4D Reinforcement Learning (4DRL)은 복합적인 운동 이해를 위해 GRPO 알고리즘을 변형하여 적용한다. 결과 기반 보상 R(yi)는 정답 여부와 'Think with 4D' 형식 준수 여부를 합산하여 계산된다. 정책 최적화 시 그래디언트 계산은 텍스트 토큰 인덱스 집합 Ttxt로 제한된다. [연속적인 잠재 상태 전파 과정은 제외하고] → [이산적인 텍스트 토큰의 로그 확률에 대해서만 정책 가중치를 갱신하여] → [연속-이산 불일치로 인한 최적화 불안정성을 제거한다].
관련 Figure

상단은 모델이 잠재 시각 토큰을 '정신적 이미저리'로 사용하여 동적 추론을 수행하는 추론 구조를 설명한다. 하단은 텍스트와 잠재 토큰을 공동 감독하는 DIFT 단계와 텍스트 토큰에만 그래디언트를 제한하는 4DRL 단계를 시각화하여 핵심 방법론을 요약한다.
4DThinker의 전체 프레임워크 개요와 2단계 학습 파이프라인(DIFT 및 4DRL)을 보여주는 다이어그램이다.
주요 결과
DSR-Bench 벤치마크 실험 결과, 4DThinker는 모든 베이스 모델에서 일관된 성능 향상을 보였다. Qwen3-VL-32B 모델에 적용했을 때 기본 모델 대비 34.0pp 향상된 62.0%의 정확도를 기록하며 Gemini-2.5-Pro(31.7%)와 기존 SOTA 모델인 DSR Suite-Model(58.9%)을 모두 능가했다. 특히 베이스 모델이 무작위 추측 수준(약 20%)에 머물렀던 절대 거리(A.Dis) 및 방향(A.Ori) 하위 작업에서 큰 폭의 개선이 확인됐다.
홀리스틱 동적 이해를 평가하는 Dyn-Bench에서도 Qwen3-VL-32B 기반 4DThinker는 75.4%를 달성하여 새로운 SOTA를 기록했다. 이는 모델이 저수준의 기하학적 궤적뿐만 아니라 객체 간 상호작용 및 인과 관계와 같은 고수준의 운동 의미론을 성공적으로 학습했음을 입증한다. Ablation Study를 통해 Lsim 손실 함수가 제거될 경우 성능이 34.2%에서 28.5%로 급감함을 확인하여 시각적 정렬 감독의 필수성을 증명했다.
기술 상세
4DThinker 아키텍처는 VLM의 시각 인코더 fvis를 동결한 상태에서 잠재 시각 토큰을 생성한다. 패치 레벨 임베딩 Eti를 Partitioned Mean Pooling을 통해 K개의 잠재 토큰 zt로 압축하여 언어 모델의 은닉 공간 차원 D에 맞춘다. 추론 시에는 Recurrent Mental Imagery 메커니즘이 작동하여, 현재 위치가 잠재 블록에 해당하면 이전 시점의 은닉 상태 ht-1을 입력 임베딩 et로 직접 피드백하는 자기 조건화(Self-conditioned) 루프를 형성한다.
데이터 생성 측면에서는 MegaSaM과 SAM3를 활용하여 원시 비디오에서 카메라 궤적과 객체 마스크를 추출한다. 정적 객체의 겉보기 변위가 카메라 운동에 기인한다는 원리를 이용하여 카메라 운동 MCQ를 생성하고, 객체 궤적 분석을 통해 방향, 거리, 속도 변화에 대한 질문을 합성한다. 최종적으로 고성능 모델(Gemini-3-Pro 등)을 사용하여 텍스트 추론과 잠재 이미저리 플레이스홀더가 교차하는 CoT 데이터를 생성한다.
한계점
현재 데이터 파이프라인은 MegaSaM과 같은 기성 기하학적 추정기에 의존하므로 해당 도구의 오류가 학습 데이터로 전파될 수 있다. 또한 현재 평가는 객관식 벤치마크에 집중되어 있어, 구현된 에이전트의 계획 수립과 같은 개방형 생성 작업으로의 확장은 여전히 과제로 남아 있다.
실무 활용
4DThinker는 외부 모듈 없이 VLM의 내재적 능력을 강화하므로 자율 주행 시스템이나 로봇 제어와 같이 실시간 동적 공간 이해가 필요한 분야에 즉시 적용 가능하다.
- 자율 주행 차량의 주변 객체 궤적 예측 및 충돌 회피 판단
- 로봇 팔의 동적 물체 파지(Grasping)를 위한 시공간적 추론
- 비디오 감시 시스템에서의 이상 행동 및 객체 이동 경로 분석
- 드론의 복잡한 환경 내 장애물 회피 및 경로 계획
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.