Video-MME-v2: 종합적 비디오 이해를 위한 차세대 벤치마크를 향하여

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 비디오 이해 벤치마크들이 포화 상태에 이르러 모델의 실제 성능을 왜곡하는 문제를 해결하기 위해 설계됐다. 단순 정답률 측정을 넘어 논리적 일관성과 단계별 추론 능력을 엄격하게 평가함으로써 차세대 비디오 멀티모달 모델 개발을 위한 새로운 기준점을 제시한다.

왜 중요한가

핵심 기여

계층적 비디오 이해 평가 체계 설계

비디오 이해 능력을 정보 통합(Level 1), 시간적 동역학 모델링(Level 2), 복합 추론(Level 3)의 3단계 계층 구조로 분류하여 모델의 인지적 병목 지점을 정밀하게 파악한다.

그룹 기반 비 nonlinear 평가 전략 도입

개별 질문의 정답 여부 대신 연관된 질문 그룹 전체의 정답 패턴을 분석한다. 우연히 맞히는 경우를 배제하고 논리적 일관성과 추론의 응집성을 갖춘 경우에만 점수를 부여한다.

고품질 인간 주도 데이터셋 구축

800개의 비디오와 3,200개의 질문으로 구성된 데이터셋을 구축했다. 12명의 주석자와 50명의 검토자가 3,300시간 이상을 투입하여 데이터 오염을 방지하고 변별력을 확보했다.

핵심 아이디어 이해하기

기존 비디오 모델 평가는 개별 프레임의 정보를 단편적으로 묻는 방식에 치우쳐 있어, 모델이 실제로 영상을 이해하는지 아니면 언어적 편향(Language Prior)에 의존해 추측하는지 구분하기 어려웠다. Transformer 기반 모델들이 시각적 특징(Visual Embedding)을 추출하더라도 이를 시간 축에서 논리적으로 연결하지 못하는 한계가 존재한다.

Video-MME-v2는 이러한 한계를 극복하기 위해 '계층적 의존성' 개념을 도입한다. 하위 단계인 정보 통합이 선행되어야 상위 단계인 인과 관계 추론이 가능하다는 원리에 기반하여 평가 문항을 설계했다. 이는 딥러닝 모델의 레이어가 계층적으로 특징을 추출하는 구조와 유사하게, 모델의 인지 프로세스 자체를 검증하려는 시도이다.

결과적으로 모델이 특정 질문에 답하기 위해 거쳐야 하는 논리적 이정표(Milestone)를 그룹화된 질문으로 확인한다. 이를 통해 모델이 단순히 정답 토큰의 확률값만 높이는 것이 아니라, 영상의 맥락을 일관되게 파악하고 있는지를 수치화하여 보여준다.

방법론

평가 체계는 3단계 계층 구조로 구성된다. Level 1은 시각 인식 및 교차 모달 일관성을, Level 2는 행동 분석 및 인과 추론을, Level 3은 서사 이해 및 물리적 세계 추론을 담당한다. 각 단계는 하위 단계의 성공적인 수행을 전제로 설계되어 모델의 성능 저하 원인을 특정할 수 있게 한다.

그룹 기반 비선형 점수 계산 방식(Group-level Non-linear Score)을 적용한다. 한 그룹 내 4개 질문 중 N개를 맞혔을 때 (N/4)²의 가중치를 부여하여 부분적인 정답보다 완전한 일관성에 높은 점수를 준다. 특히 추론 응집성 그룹에서는 첫 번째 오류가 발생한 시점 이후의 정답은 모두 무효 처리하는 'First-error Truncation' 메커니즘을 사용하여 논리적 비약을 방지한다.

데이터 구축 시에는 2025년 이후 출시된 최신 영상을 80% 이상 포함하여 모델 학습 데이터에 포함되었을 가능성(Data Leakage)을 원천 차단했다. 또한 텍스트 전용 모델(Gemini-3-Pro Text-only)을 대조군으로 사용하여 시각 정보 없이 언어적 유추만으로 풀 수 있는 문항을 사전에 제거하는 정화 과정을 거쳤다.

주요 결과

인간 전문가는 90.7점을 기록한 반면, 최상위 상용 모델인 Gemini-3-Pro는 49.4점에 그쳐 거대한 성능 격차를 보였다. 오픈소스 모델 중에서는 Qwen3.5-397B-Think가 39.1점으로 가장 우수한 성능을 나타냈으나 여전히 인간의 수준에는 크게 미치지 못했다.

실험 결과 '계층적 병목 현상(Hierarchical Bottleneck)'이 뚜렷하게 관찰됐다. Level 1(정보 통합)에서 발생한 오류가 Level 2(시간적 모델링)로 전이되고, 이것이 최종적으로 Level 3(복합 추론)의 실패로 이어지는 연쇄 효과가 확인됐다. 이는 고차원 추론 성능 향상을 위해 기초적인 시각 인지 능력의 견고함이 필수적임을 시사한다.

생각 모드(Thinking Mode) 활성화 시 자막이 있는 환경에서는 성능이 향상되었으나, 순수 시각 정보만 있는 환경에서는 오히려 성능이 저하되는 사례가 발견됐다. 이는 현재의 비디오 MLLM들이 여전히 시각 정보보다는 텍스트 단서와 언어적 추론에 과도하게 의존하고 있음을 보여준다.

기술 상세

Video-MME-v2는 31개의 세부 카테고리와 30개 이상의 작업 유형을 포함하는 방대한 택소노미를 갖추고 있다. 각 질문 그룹은 '능력 일관성(Capability Consistency)'과 '추론 응집성(Reasoning Coherence)'이라는 두 가지 차원에서 모델을 압박한다. 전자는 동일한 능력을 다양한 각도와 입도로 측정하며, 후자는 인과적으로 연결된 질문 시퀀스를 통해 모델의 논리적 단계를 추적한다.

모델 평가 시 Omni-modal 아키텍처의 이점을 분석하기 위해 원본 오디오 스트림을 직접 입력하는 설정과 자막/ASR 텍스트를 제공하는 설정을 구분하여 실험했다. Gemini-3-Pro와 같은 모델은 오디오-비주얼 융합을 통해 텍스트 자막 없이도 높은 성능을 유지하는 견고함을 보였으나, 대부분의 오픈소스 모델은 텍스트 보조 정보가 사라질 때 성능이 급격히 하락하는 양상을 보였다.

구현 측면에서 8지 선다형(A-H) 객관식 설계를 채택하여 무작위 추측에 의한 정답 확률을 12.5%로 낮췄다. 또한 오답 선택지(Distractor) 설계 시 모델이 생성한 그럴듯한 오답을 인간이 정교하게 수정하여 시각적/청각적 증거와 부분적으로 일치하지만 핵심 디테일에서 틀린 '강력한 방해 요소'를 포함시켰다.

한계점

현재 SOTA 모델들도 행동 및 동작 분석(Action & Motion)과 물리 법칙 추론(Physical-law Reasoning) 영역에서는 30점 미만의 낮은 점수를 기록하고 있어, 이 분야의 기술적 한계가 명확히 드러났다.

실무 활용

비디오 AI 모델의 실제 업무 수행 능력을 정밀하게 측정하고 개선 방향을 설정하는 데 활용될 수 있다.

자율주행 시스템의 복잡한 도로 상황 인과 관계 추론 능력 평가
지능형 CCTV의 이상 행동 감지 및 서사적 맥락 파악 성능 검증
비디오 편집 AI의 스토리라인 이해 및 편집 지점 추천 정확도 측정
교육용 영상 콘텐츠의 핵심 정보 추출 및 질의응답 시스템 성능 고도화

코드 공개 여부: 공개

코드 저장소 보기

키워드

Video Understanding(비디오 이해)MLLM(멀티모달 대형 언어 모델)Benchmark(벤치마크)Multimodal Reasoning(멀티모달 추론)Temporal Dynamics(시간적 동역학)