핵심 요약
현재의 AI 시스템은 인간보다 수천 배 많은 데이터를 필요로 하지만, 이 논문은 단 한 명의 어린이가 경험하는 수준의 데이터만으로도 물리적 세계를 이해할 수 있음을 증명한다. 이는 데이터 효율성이 극도로 높은 차세대 AI 시스템 구축을 위한 새로운 설계 원칙을 제시한다.
왜 중요한가
현재의 AI 시스템은 인간보다 수천 배 많은 데이터를 필요로 하지만, 이 논문은 단 한 명의 어린이가 경험하는 수준의 데이터만으로도 물리적 세계를 이해할 수 있음을 증명한다. 이는 데이터 효율성이 극도로 높은 차세대 AI 시스템 구축을 위한 새로운 설계 원칙을 제시한다.
핵심 기여
Zero-shot Visual World Model(ZWM) 프레임워크 제안
외형과 역학을 분리하는 시간적 인자화 예측기, 인과 추론을 통한 제로샷 구조 추출, 그리고 복합적인 추론 능력을 쌓아올리는 프롬프트 조합 원칙을 기반으로 하는 새로운 모델 구조이다.
극도의 데이터 효율성 입증
단일 아동의 1인칭 시점 영상 데이터셋인 BabyView(약 868시간)만으로 학습하여, 별도의 추가 학습 없이 광학 흐름, 깊이 추정, 객체 분할 등 다양한 시각 인지 과업을 수행한다.
인간 발달 및 뇌 활동과의 정렬 확인
모델의 학습 과정이 실제 아동의 시각 인지 발달 궤적과 유사하며, 내부 표현형이 인간의 fMRI 및 원숭이의 전기생리학적 뇌 반응 데이터와 계층적으로 일치함을 보여준다.
핵심 아이디어 이해하기
기존의 시각 모델은 특정 과업을 수행하기 위해 대규모 라벨링 데이터로 파인튜닝을 거쳐야 하며, 이는 데이터 효율성이 매우 낮다. ZWM은 Transformer의 Masked Autoencoder 구조를 활용하되, 시간적 선후 관계를 이용해 외형 정보는 이전 프레임에서 가져오고 변화된 움직임 정보만 예측하도록 강제한다. 이를 통해 모델은 객체의 겉모습과 그 객체가 어떻게 움직이는지에 대한 역학적 원리를 스스로 분리하여 학습하게 된다.
학습된 모델에서 정보를 꺼내는 방식도 독특하다. 특정 지점에 가상의 변화를 주는 '인과적 개입' 프롬프트를 입력하고, 그 결과가 원래 예측과 어떻게 달라지는지 비교함으로써 광학 흐름이나 객체 경계 같은 고차원 정보를 추출한다. 이는 아이들이 물체를 직접 건드려보며 물리 법칙을 배우는 과정과 유사한 원리이다.
결과적으로 수백만 시간의 인터넷 영상이 아닌, 단 몇 달 치의 아동 경험 데이터만으로도 물리적 상호작용을 예측할 수 있는 범용적인 월드 모델이 형성된다. 이는 AI가 인간처럼 적은 데이터로도 세상을 배우는 '발달적 효율성'을 갖출 수 있음을 시사한다.
방법론
ZWM의 핵심은 Sparse Temporally-factored Prediction이다. 두 개의 연속된 비디오 프레임 f1, f2가 주어질 때, f1은 전체를 보여주고 f2는 90%를 마스킹하여 모델이 f2의 나머지 10% 패치와 f1을 참고해 f2 전체를 복원하도록 학습시킨다. 이 과정에서 모델은 f1에서 객체의 외형을, f2의 희소한 패치에서 움직임(Motion) 정보를 추출하여 결합하는 법을 배운다.
추론 단계에서는 Approximate Causal Inference 기법을 사용한다. 입력 x에 미세한 섭동을 가한 xδ를 생성하고, 모델의 출력 Ψ(x)와 Ψ(xδ)의 차이를 계산하여 특정 시각적 속성을 추출한다. 예를 들어 객체 분할을 위해 특정 패치를 가상으로 이동시키는 섭동을 주면, 모델은 해당 패치와 연결된 객체 전체의 움직임을 예측하게 되고 이를 통해 객체의 경계를 식별한다.
모델 구현은 Vision Transformer(ViT) 백본을 사용하며, 170M 및 1B 파라미터 규모로 구성된다. 학습 시에는 MSE(Mean Squared Error) 손실 함수를 사용하여 마스킹된 패치의 픽셀 값을 복원하도록 최적화한다. [마스킹된 f2 패치와 전체 f1 입력] → [ViT 인코더 및 디코더 연산] → [f2 전체 픽셀 복원] → [실제 f2와의 픽셀 차이를 줄이는 방향으로 가중치 업데이트] 순으로 학습이 진행된다.
관련 Figure

시간적으로 인자화된 예측 학습 방식(A)과 이를 통해 제로샷으로 다양한 시각 과업을 수행하는 과정(B)을 보여준다. 특히 하단부의 Flow, Depth, Segments 결과물은 모델이 별도의 라벨 없이도 물리적 구조를 정확히 파악하고 있음을 시각화한다.
ZWM 프레임워크의 학습 및 추론 구조 개요도
주요 결과
BabyZWM은 BabyView 데이터셋으로만 학습했음에도 불구하고, TAP-Vid-DAVIS 광학 흐름 벤치마크에서 라벨 학습을 거친 최신 모델인 CoTracker3와 대등한 성능을 기록했다. 상대적 깊이 추정 과업에서는 90% 이상의 정확도를 보이며 Gemini-1.5, GPT-4o와 같은 대형 멀티모달 모델을 능가했다.
객체 분할 성능은 대규모 COCO 데이터셋으로 학습된 Mask2Former와 유사한 수준을 달성했으며, 특히 물리적 추론 과업(객체 응집성, 지지 관계 등)에서는 100%에 가까운 정확도를 보였다. 이는 모델이 물리적 인과 관계를 정확히 파악하고 있음을 입증한다.
발달 궤적 분석 결과, 모델의 초기 레이어는 뇌의 초기 시각 피질(V1)과, 깊은 레이어는 고차원 시각 영역(IT)과 높은 상관관계를 보였다. 또한 학습 시간이 경과함에 따라 아동의 발달 순서와 유사하게 광학 흐름 인지 능력이 먼저 발달하고 이후 객체 분할 및 물리 추론 능력이 향상되는 양상이 관찰됐다.
관련 Figure

BabyZWM이 기존의 지도 학습 모델들과 비교하여 광학 흐름 및 깊이 추정에서 경쟁력 있는 성능을 보임을 입증한다. 특히 상하가 반전된 이미지(Flipped images)에서도 인간과 유사한 강건성을 유지하는 점이 주목할 만하다.
광학 흐름 및 상대적 깊이 추정 성능 비교 차트

광학 흐름, 깊이, 객체 분할, 물리 추론 능력이 학습 시간에 따라 어떻게 향상되는지 보여준다. 각 능력이 서로 다른 시점에 고점에 도달하며 발달하는 모습이 실제 아동의 인지 발달 과정과 유사한 패턴을 그린다.
학습 진행에 따른 제로샷 성능 발달 궤적
기술 상세
ZWM 아키텍처는 표준 ViT를 기반으로 하며, 입력 프레임을 8x8 패치로 나누어 처리한다. 170M 모델은 24개 레이어와 12개 어텐션 헤드를, 1B 모델은 48개 레이어와 16개 어텐션 헤드를 가진다. 학습 시 데이터 증강(Data Augmentation)을 전혀 사용하지 않고 원본 RGB 프레임 쌍만 사용하는 것이 특징이다.
이 모델은 Richard Sutton의 'Bitter Lesson'과 인지 과학의 'Innate Bias' 가설 사이의 하이브리드 접근법을 취한다. 최소한의 구조적 편향(시간적 인자화 마스킹)만 제공하고 나머지 표현형은 실제 경험 데이터로부터 학습하도록 설계되었다. 이는 복잡한 수작업 규칙 없이도 강력한 물리적 직관이 형성될 수 있음을 보여준다.
특히 'Compositional Prompting'을 통해 기초적인 광학 흐름 추출기를 조합하여 깊이 추정이나 객체 분할과 같은 복잡한 과업으로 확장하는 구조는 LLM의 프롬프트 엔지니어링과 유사한 유연성을 시각 모델에 부여한다. 이는 시각 지능을 단일 과업 해결사가 아닌 범용적인 월드 모델로 접근하는 새로운 패러다임을 제시한다.
한계점
현재 모델은 물리적 수치에 집중하고 있어 객체의 이름이나 언어적 관계와 같은 의미론적 개념(Semantic Concepts)은 다루지 못한다. 또한 결정론적 회귀 모델로서 미래 예측 시 모호성이 큰 상황에서 출력이 흐려지는 모드 붕괴(Mode Collapse) 현상이 발생할 수 있다.
실무 활용
데이터가 부족한 특수 도메인이나 로보틱스 분야에서 인간과 유사한 물리적 직관을 가진 모델을 구축하는 데 활용될 수 있다.
- 로봇 조작을 위한 제로샷 객체 분할 및 물리적 상호작용 예측
- 의료 영상 등 라벨링 데이터 확보가 어려운 분야의 시각 인지 모델 구축
- 아동의 시각 발달 과정을 시뮬레이션하는 교육 및 인지 과학 연구 도구
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.