대규모 비디오 추론 데이터셋 및 벤치마크: VBVR (Very Big Video Reasoning)

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

비디오 생성 AI가 시각적 화려함에 비해 물리 법칙이나 인과관계를 이해하는 '추론' 능력이 부족하다는 문제를 해결하기 위해 기존보다 1,000배 큰 데이터셋을 구축했습니다. 이를 통해 AI가 복잡한 공간 이동이나 사물 변화를 논리적으로 계산하고 실행할 수 있는 기술적 토대를 마련했으며, 데이터 규모 확장에 따른 지능의 창발적 발현을 입증했습니다.

왜 중요한가

핵심 기여

VBVR-Dataset 구축

200개의 정교한 추론 작업과 100만 개 이상의 비디오 클립을 포함하는 201.5만 개의 샘플로 구성된 역대 최대 규모의 비디오 추론 데이터셋을 공개했다.

VBVR-Bench 평가 프레임워크

모델 기반 평가의 모호함을 탈피하여 픽셀 및 객체 속성 수준에서 정답을 직접 검증하는 규칙 기반(rule-based)의 재현 가능한 평가 체계를 도입했다.

인지 아키텍처 기반 작업 체계화

인간의 인지 구조를 본떠 지각, 변환, 공간성, 추상화, 지식의 5대 핵심 역량으로 비디오 추론 작업을 분류하고 체계적인 성능 진단을 가능하게 했다.

확장 법칙 및 일반화 입증

데이터 규모가 커짐에 따라 학습하지 않은 새로운 작업(OOD)에서도 추론 능력이 향상되는 창발적 일반화 현상을 대규모 실험을 통해 확인했다.

핵심 아이디어 이해하기

기존 비디오 모델은 주로 Transformer의 Attention 메커니즘을 통해 프레임 간의 시각적 통계 상관관계를 학습하며, 이는 겉보기에 자연스러운 영상을 만들지만 논리적 일관성은 부족하게 만든다. 예를 들어 미로를 탈출하는 영상에서 에이전트가 벽을 통과하거나 목적지를 잊는 현상이 발생하는데, 이는 모델이 공간적 좌표와 인과관계를 '계산'하는 것이 아니라 단순히 '그럴듯한 픽셀'을 나열하기 때문이다.

이 논문은 비디오를 '물리적 세계의 추론 기판'으로 정의하고, 인지 심리학의 기초 개념을 수학적 파라미터로 제어 가능한 데이터 생성기로 변환했다. 에이전트의 위치, 장애물의 배치, 물체의 속성 변화를 Embedding 공간에서 논리적으로 연결하고, 이를 최단 경로 알고리즘이나 물리 법칙과 결합하여 정답 비디오를 생성한다. 모델은 이 방대한 데이터를 학습하며 픽셀 간의 관계를 넘어 '공간적 이동'이나 '속성 보존'과 같은 추론의 기본 단위(primitives)를 익히게 된다.

결과적으로 데이터 규모가 임계점을 넘어서면 모델은 특정 패턴을 암기하는 수준을 넘어선다. '왼쪽 이동'과 '빨간색 물체'를 각각 이해한 모델이 처음 보는 '빨간색 물체를 왼쪽으로 이동'이라는 복합 명령을 수행할 수 있게 되는 것이다. 이는 비디오 모델이 단순한 영상 합성 도구에서 논리적 사고가 가능한 세계 모델(World Model)로 진화하는 핵심 원리이다.

방법론

인지 아키텍처 기반 작업 설계는 아리스토텔레스와 칸트의 이론을 현대 신경과학과 결합하여 Perception, Transformation, Spatiality, Abstraction, Knowledge의 5가지 범주로 200개의 작업을 정의했다. 각 작업은 파라미터화된 생성기를 통해 무한한 변주가 가능하며, 반드시 시간적 흐름을 이해해야만 풀 수 있는 '비디오 의존성' 기준을 엄격히 적용했다.

데이터 큐레이션은 3단계 파이프라인으로 진행된다. 먼저 50명 이상의 연구자가 참여하여 작업의 논리적 타당성을 검토하고, 각 작업별로 정답을 산출하는 알고리즘 생성기를 구현한 뒤, AWS Lambda를 활용한 대규모 분산 시스템을 통해 100만 개 이상의 비디오를 생성한다. 모든 샘플은 자동화된 검증 로직을 통해 솔루션의 존재 여부와 시각적 명확성을 확인받는다.

검증 가능한 규칙 기반 평가는 에이전트의 좌표, 경로의 유효성, 물체의 속성 변화를 직접 계산한다. [에이전트의 궤적 좌표 입력 → 최단 경로 알고리즘(BFS) 결과와 비교 연산 → 경로 효율성 및 정확도 수치 출력 → 최종 추론 점수 산출] 과정을 거친다. 이는 LLM 판관의 주관성이나 환각 문제를 배제하고 0.9 이상의 높은 인간 선호도 상관관계를 확보한다.

VBVR-Wan2.2 모델 학습은 Wan2.2-I2V-A14B 모델을 베이스로 하여 VBVR-Dataset의 50만 개 샘플로 LoRA 파인튜닝을 수행했다. DiT(Diffusion Transformer) 백본의 q, k, v, o 및 ffn 모듈에 rank=32의 LoRA를 적용하여 시각적 생성 능력은 유지하면서 텍스트 명령에 따른 정밀한 객체 제어 및 추론 능력을 극대화했다.

주요 결과

메인 벤치마크 결과, VBVR-Wan2.2 모델은 전체 점수 0.685를 기록하며 기존 SOTA 모델인 Sora 2(0.546)와 Veo 3.1(0.480)을 크게 앞질렀다. 이는 베이스 모델인 Wan2.2(0.371) 대비 약 84.6% 향상된 수치로, 대규모 추론 데이터 학습의 효과를 입증했다.

데이터 확장 효과 분석에서는 학습 데이터 규모를 0에서 50만 개까지 늘림에 따라 성능이 지속적으로 상승하는 확장 법칙을 확인했다. 특히 학습 데이터에 포함되지 않은 새로운 작업(Out-of-Domain)에서도 성능이 0.329에서 0.610으로 동반 상승하며, 모델이 일반화된 추론 능력을 획득했음을 보여주었다.

인지 역량별 상관관계 분석을 통해 '지식(Knowledge)'과 '공간성(Spatiality)' 역량 사이에는 강한 양의 상관관계(ρ=0.461)가 있음을 발견했다. 반면 '지식'과 '지각(Perception)' 사이에는 강한 음의 상관관계(ρ=-0.757)가 나타나, 모델의 지능이 발달함에 따라 각 역량이 서로 보완하거나 충돌하는 복잡한 발달 구조를 규명했다.

기술 상세

VBVR-Dataset은 200개의 작업을 5가지 인지 범주로 구조화하며, 각 작업은 10,000개 이상의 고유 샘플을 생성할 수 있는 파라미터화된 생성기를 보유한다. 이는 기존 데이터셋 대비 300배 이상의 규모로, 비디오 모델의 추론 성능에 대한 Scaling Laws 연구를 가능하게 하는 최초의 대규모 자원이다.

평가 시스템인 VBVR-Bench는 '결정론적 해결 가능성'을 원칙으로 설계되었다. 모든 작업은 고유한 정답 경로가 존재하며, 이를 픽셀 좌표나 객체 상태 벡터로 변환하여 채점한다. 예를 들어 경로 유효성 검사에서는 [생성된 프레임의 에이전트 위치 추출 → 장애물 맵과 대조 → 충돌 횟수 계산 → 유효 점수 산출]의 과정을 거친다.

VBVR-Wan2.2는 Diffusion Transformer(DiT) 아키텍처를 기반으로 하며, 학습 시 비디오의 시각적 품질을 담당하는 가중치는 고정하고 LoRA를 통해 텍스트 프롬프트와 시각적 객체 간의 논리적 매핑 레이어만 집중 학습시켰다. 이를 통해 모델이 '무엇을 그릴지'뿐만 아니라 '어떻게 움직일지'에 대한 인과적 제어력을 갖게 했다.

실험적으로 입증된 '창발적 일반화'는 모델이 학습 과정에서 습득한 추론 프리미티브(이동, 회전, 속성 변경 등)를 조합하여 처음 보는 복합 작업을 수행할 수 있음을 의미한다. 이는 비디오 모델이 단순한 패턴 매칭을 넘어 논리적 합성 능력을 갖추기 시작했음을 시사하는 중요한 기술적 발견이다.

한계점

장기적 시간 추론과 복잡한 기호 조작 능력에서는 여전히 인간(0.974)과 모델(0.685) 사이에 큰 격차가 존재한다. 또한 비디오 생성 과정에서 발생하는 누적 렌더링 노이즈와 시간적 드리프트로 인해 긴 시퀀스에서 논리적 제약 조건을 완벽히 유지하는 데 한계가 있으며, 에이전트 복제나 깜빡임 현상이 여전히 보고되었다.

실무 활용

비디오 생성 AI를 단순한 영상 제작을 넘어 물리적 환경을 이해하고 복잡한 논리적 명령을 수행하는 지능형 에이전트로 활용할 수 있는 실질적 경로를 제시합니다.

로봇 시뮬레이션: 복잡한 장애물 환경에서 로봇의 이동 경로를 시각적으로 계획하고 물리적 타당성을 사전 검증
지능형 영상 편집: '특정 물체를 논리적 순서에 따라 재배치'와 같은 고차원적 제어 명령 수행
인터랙티브 교육: 수학적 문제 해결 과정이나 물리 법칙의 변화를 시각적 추론을 통해 보여주는 교육 콘텐츠 생성

코드 공개 여부: 공개

코드 저장소 보기

키워드

Video Reasoning(비디오 추론)VBVR(대규모 비디오 추론 데이터셋)Cognitive Architecture(인지 아키텍처)Emergent Generalization(창발적 일반화)Scaling Laws(확장 법칙)