비디오 추론 성능 평가를 위한 대규모 벤치마크 VBVR 공개

핵심 요약

언어 추론 이후의 차세대 인공지능 패러다임으로 시공간적 맥락을 이해하는 비디오 추론이 부상하고 있다. 본 연구는 이를 위해 설계된 대규모 비디오 추론 스위트(VBVR)를 통해 지식, 추상화, 공간성, 변형, 지각 등 5가지 핵심 도메인을 평가하는 데이터 엔진과 리더보드를 제공한다. 벤치마크 결과 VBVR-Wan2.2 모델이 68.5%의 점수로 Sora 2(54.6%)를 제치고 1위를 차지했으나 인간의 성능인 97.4%에는 여전히 미치지 못하는 것으로 확인됐다. 비디오 모델의 성능 평가 기준이 단순한 시각적 품질에서 논리적 사고와 물리적 세계 이해도로 확장되는 추세다.

배경

비디오 생성 모델(Video Generation Model)에 대한 기본 이해, 벤치마크 및 리더보드 평가 체계에 대한 지식, 멀티모달 학습(Multimodal Learning) 개념

대상 독자

비디오 생성 및 추론 모델 연구자, 멀티모달 AI 개발자, 로보틱스 지능 연구원

의미 / 영향

비디오 AI가 단순한 콘텐츠 제작 도구를 넘어 물리적 세계를 이해하는 지능으로 진화하고 있음을 시사한다. 이는 자율주행이나 로보틱스 등 실제 환경과의 상호작용이 필요한 분야에서 비디오 모델이 핵심적인 추론 엔진 역할을 수행할 수 있는 가능성을 열어준다.

섹션별 상세

비디오 추론을 언어 추론을 잇는 차세대 지능 패러다임으로 규정하고 시공간적 세계 경험을 자연스럽게 포착하는 것을 목표로 한다. 이는 단순한 영상 생성을 넘어 영상 속 객체의 움직임과 시간적 변화를 논리적으로 해석하는 능력을 포함한다.

데이터 엔진은 시계 시간 예측(지식), 레이븐 매트릭스 패턴 완성(추상화), 미로 내 열쇠 수집 및 이동(공간성), 객체 이동(변형), 오각형 식별(지각) 등 5가지 도메인의 테스트셋을 생성한다. 각 엔진은 모델이 물리 법칙과 논리적 규칙을 얼마나 잘 이해하는지 정밀하게 측정한다.

리더보드 평가 결과 VBVR-Wan2.2가 가장 우수한 성능을 보였으며 Sora 2, Veo 3.1, Runway Gen-4 등 주요 상용 모델들을 상회하는 추론 능력을 입증했다. 특히 오픈소스 기반 모델이 폐쇄형 상용 모델보다 높은 성능을 기록한 점이 주목할 만하다.

모델 평가를 위한 EvalKit과 데이터 엔진을 오픈소스로 공개하여 비디오 추론 연구의 표준화를 지향한다. 이를 통해 연구자들이 자신의 모델을 객관적으로 평가하고 비디오 지능의 한계를 극복할 수 있는 기반을 마련했다.

이미지 분석

Screenshot
지식 도메인의 테스트 사례로 7시간 후의 시계 바늘 위치를 예측하는 추론 과제의 시작점을 보여준다.
9시 42분을 가리키는 아날로그 시계의 초기 상태 이미지

Diagram
추상화 도메인에서 모델이 기하학적 패턴의 규칙성을 파악하고 빈칸을 채울 수 있는지 평가하는 과제를 나타낸다.
3x3 행렬 형태의 레이븐 지능 검사 패턴 이미지

Diagram
공간성 도메인 과제로 에이전트가 최단 경로를 통해 열쇠를 획득하고 문으로 이동하는 능력을 측정한다.
미로 내에서 열쇠와 문이 배치된 초기 상태의 평면도

실무 Takeaway

비디오 AI의 발전 방향이 시각적 화려함에서 시공간적 논리 추론과 세계 이해로 전환되고 있다.
VBVR-Wan2.2는 68.5%의 성능으로 현재 공개된 모델 중 가장 뛰어난 비디오 추론 능력을 보유하고 있다.
인간의 성능(97.4%)과 AI 모델 간의 격차가 여전히 30%p 가까이 존재하여 복잡한 추론 영역의 개선이 필요하다.

언급된 리소스

GitHubVBVR GitHub Repository