핵심 요약
언어 추론 이후의 차세대 인공지능 패러다임으로 시공간적 맥락을 이해하는 비디오 추론이 부상하고 있다. 본 연구는 이를 위해 설계된 대규모 비디오 추론 스위트(VBVR)를 통해 지식, 추상화, 공간성, 변형, 지각 등 5가지 핵심 도메인을 평가하는 데이터 엔진과 리더보드를 제공한다. 벤치마크 결과 VBVR-Wan2.2 모델이 68.5%의 점수로 Sora 2(54.6%)를 제치고 1위를 차지했으나 인간의 성능인 97.4%에는 여전히 미치지 못하는 것으로 확인됐다. 비디오 모델의 성능 평가 기준이 단순한 시각적 품질에서 논리적 사고와 물리적 세계 이해도로 확장되는 추세다.
배경
비디오 생성 모델(Video Generation Model)에 대한 기본 이해, 벤치마크 및 리더보드 평가 체계에 대한 지식, 멀티모달 학습(Multimodal Learning) 개념
대상 독자
비디오 생성 및 추론 모델 연구자, 멀티모달 AI 개발자, 로보틱스 지능 연구원
의미 / 영향
비디오 AI가 단순한 콘텐츠 제작 도구를 넘어 물리적 세계를 이해하는 지능으로 진화하고 있음을 시사한다. 이는 자율주행이나 로보틱스 등 실제 환경과의 상호작용이 필요한 분야에서 비디오 모델이 핵심적인 추론 엔진 역할을 수행할 수 있는 가능성을 열어준다.
섹션별 상세
이미지 분석

지식 도메인의 테스트 사례로 7시간 후의 시계 바늘 위치를 예측하는 추론 과제의 시작점을 보여준다.
9시 42분을 가리키는 아날로그 시계의 초기 상태 이미지

추상화 도메인에서 모델이 기하학적 패턴의 규칙성을 파악하고 빈칸을 채울 수 있는지 평가하는 과제를 나타낸다.
3x3 행렬 형태의 레이븐 지능 검사 패턴 이미지

공간성 도메인 과제로 에이전트가 최단 경로를 통해 열쇠를 획득하고 문으로 이동하는 능력을 측정한다.
미로 내에서 열쇠와 문이 배치된 초기 상태의 평면도
실무 Takeaway
- 비디오 AI의 발전 방향이 시각적 화려함에서 시공간적 논리 추론과 세계 이해로 전환되고 있다.
- VBVR-Wan2.2는 68.5%의 성능으로 현재 공개된 모델 중 가장 뛰어난 비디오 추론 능력을 보유하고 있다.
- 인간의 성능(97.4%)과 AI 모델 간의 격차가 여전히 30%p 가까이 존재하여 복잡한 추론 영역의 개선이 필요하다.
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료