핵심 요약
기존 비디오 벤치마크는 주로 짧은 클립이나 단일 모달리티에 집중하여 실제 환경의 복잡성을 반영하지 못했다. MMOU는 시각과 오디오가 결합된 최장 2시간의 영상을 통해 모델이 인간처럼 다각도로 추론할 수 있는지 엄격하게 평가하며, 현재 최신 모델들도 인간 수준(84.3%)에 크게 못 미치는 성능(최대 64.2%)을 보임을 입증했다.
왜 중요한가
기존 비디오 벤치마크는 주로 짧은 클립이나 단일 모달리티에 집중하여 실제 환경의 복잡성을 반영하지 못했다. MMOU는 시각과 오디오가 결합된 최장 2시간의 영상을 통해 모델이 인간처럼 다각도로 추론할 수 있는지 엄격하게 평가하며, 현재 최신 모델들도 인간 수준(84.3%)에 크게 못 미치는 성능(최대 64.2%)을 보임을 입증했다.
핵심 기여
15,000개의 정교한 멀티모달 질의응답 데이터셋 구축
9,038개의 실제 웹 비디오를 기반으로 시각과 오디오 정보를 동시에 활용해야만 풀 수 있는 15,000개의 객관식 문제를 전문가 주도로 생성했다.
13가지 핵심 오디오-비주얼 추론 기술 분류 체계 도입
시간적 이해, 인과 추론, 객체 상호작용, 참조 접지 등 비디오 이해에 필수적인 13가지 기술 카테고리를 정의하여 모델의 약점을 정밀 진단한다.
장기 문맥 및 복합 모달리티 성능 격차 확인
20개 이상의 최신 MLLM을 평가한 결과, 폐쇄형 모델인 Gemini 2.5 Pro는 64.2%, 오픈소스 모델인 Qwen3-Omni는 46.8%의 정확도에 그쳐 인간과의 뚜렷한 성능 차이를 확인했다.
핵심 아이디어 이해하기
기존 비디오 모델은 주로 프레임 단위의 시각적 특징을 추출하거나 짧은 구간의 오디오를 개별적으로 처리하는 방식에 의존했다. 이는 긴 영상 속에서 시각적 사건과 오디오 신호가 복잡하게 얽힌 맥락을 파악하는 데 한계가 있으며, 특히 특정 시점의 소리가 나중에 일어날 시각적 변화의 원인이 되는 인과 관계를 놓치기 쉽다. MMOU는 이러한 한계를 극복하기 위해 Omni-modal 추론을 강제한다. 즉, 시각 정보만으로는 답을 알 수 없고 오디오 정보만으로도 부족한, 두 신호가 결합되어야만 논리적 결론에 도달할 수 있는 문제를 설계했다. 이는 모델이 단순히 패턴을 인식하는 것을 넘어, 시간 축을 따라 시각적 임베딩과 오디오 임베딩을 통합적으로 정렬하고 추론해야 함을 의미한다. 실험 결과, 영상의 길이가 길어질수록 모델의 성능이 급격히 하락하는 현상이 관찰됐다. 이는 현재의 MLLM이 긴 시퀀스에 대한 KV Cache 관리나 장기 기억 유지 능력에서 여전히 취약하며, 특히 영상 후반부에 등장하는 증거를 찾는 Needle-in-a-haystack 추론에서 큰 어려움을 겪고 있음을 시사한다.
방법론
데이터 수집 및 큐레이션 과정에서 10개의 주요 도메인과 36개의 세부 카테고리를 선정하여 데이터의 다양성을 확보했다. 수집된 9,038개의 영상은 최소 7초에서 최대 121분에 이르는 광범위한 길이를 가지며, 모든 영상은 720p 해상도로 샘플링되었다. 전문가 주도의 주석 프로세스를 도입하여 11명의 전문 주석가가 영상을 전체 시청한 후, 시각과 오디오 이해가 동시에 필요한 개방형 질문을 작성했다. 이후 GPT-5.2를 활용해 의미적으로 그럴듯하지만 오답인 선택지 9개를 생성하여 10지 선다형 객관식 문제로 변환했다. 평가 지표로는 마이크로 평균 정확도를 사용했다. 각 질문에 대해 모델이 선택한 정답 여부를 0 또는 1로 기록한 뒤 전체 질문 수로 나누어 평균을 계산한다. [개별 문항 정답 여부 → 전체 합산 및 평균화 → 최종 정확도 수치] 순으로 계산되며, 이는 모든 문항의 가중치를 동일하게 두어 모델의 전반적인 이해도를 하나의 확률값으로 나타낸다. 또한 모델의 옵션 순서 편향을 방지하기 위해 선택지 순서를 5회 무작위로 섞어 다수결로 최종 답변을 결정하는 견고한 프로토콜을 적용했다.
주요 결과
메인 벤치마크 결과, 폐쇄형 모델인 Gemini 2.5 Pro가 64.2%로 가장 높은 성능을 기록했으며, Gemini 2.5 Flash가 55.8%로 뒤를 이었다. 오픈소스 모델 중에서는 Qwen3-Omni-30B-Instruct가 46.0%, Minicpm-o 4.5가 46.8%를 기록하며 상위권을 차지했으나 인간 성능인 84.3%와는 여전히 약 20~40%p의 큰 격차가 존재한다. 모달리티별 분석 결과, 시각 전용 모델인 Qwen3-VL-32B는 44%, 오디오 전용 모델인 Audio Flamingo 3는 17.7%의 정확도에 그쳤다. 이는 MMOU의 문제들이 단일 모달리티만으로는 해결 불가능하며, 진정한 멀티모달 통합 추론 능력을 요구한다는 점을 증명한다. 영상 길이에 따른 성능 분석에서, 증거가 영상 후반부에 위치할수록 모든 모델의 정확도가 꾸준히 하락하는 경향을 보였다. 특히 30분 이상의 장기 영상에서는 성능 저하가 더욱 뚜렷하게 나타나 장기 문맥 유지의 어려움을 드러냈다.
실무 활용
비디오 AI 모델의 실제 환경 적응력을 정밀하게 테스트하려는 개발자 및 연구자에게 필수적인 벤치마크다. 특히 교육용 영상 분석, 보안 모니터링, 복잡한 스포츠 경기 해설 등 고도의 멀티모달 추론이 필요한 서비스 개발 시 모델 선택의 기준이 될 수 있다.
- 긴 강의 영상에서 특정 질문에 대한 답변과 시각적 증거를 동시에 찾아내는 교육용 AI 튜터 평가
- CCTV 영상에서 소리와 움직임을 결합하여 위험 상황을 감지하는 보안 시스템 벤치마킹
- 스포츠 중계 영상에서 해설자의 멘트와 경기 상황을 연결하여 하이라이트를 자동 생성하는 모델 테스트
기술 상세
MMOU는 13가지 기술 분류를 통해 MLLM의 다면적 능력을 측정한다. 각 질문은 평균 3개의 기술이 복합적으로 요구되도록 설계되어 단순한 객체 인식을 넘어선 고차원적 추론을 유도한다. 데이터셋의 난이도를 높이기 위해 None of the above 옵션을 13%의 문항에 정답 또는 오답으로 포함시켰다. 이는 모델이 소거법이나 통계적 추측으로 정답을 맞히는 것을 방지하고 실제 내용을 이해했는지 검증하는 장치로 작용한다. 오픈엔드 평가를 위해 GPT-5를 판정관으로 사용하는 프로토콜을 제안했다. Correctness(C), Completeness(Co), Faithfulness(F), Clarity(Cl) 점수가 주어질 때 0.5 * C + (0.5 / 3) * (Co + F + Cl)을 계산한다. [네 가지 차원의 점수 입력 → 가중치 적용 및 합산 → 1~5점 사이의 최종 점수] 순으로 연산되며, 이는 사실적 정확성에 50%의 비중을 두어 모델의 신뢰성을 최우선으로 평가함을 의미한다. 실험에 사용된 모델들은 공통적으로 Counting과 Needle-in-a-haystack 추론에서 가장 낮은 점수를 기록했다. 이는 현재의 Attention 메커니즘이 미세한 시간적 사건의 빈도를 추적하거나 방대한 컨텍스트 내에서 특정 정보를 추출하는 데 구조적 한계가 있음을 시사한다.
한계점
웹에서 수집된 비디오를 사용하므로 데이터 편향이나 폐쇄형 모델의 경우 학습 데이터 유출 가능성이 존재한다. 또한 객관식 평가 방식이 실제 환경의 복잡한 자유 추론을 완벽히 대체하기에는 한계가 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료