TL;DR
비디오 콘텐츠는 시각적 요소뿐 아니라 문화적 맥락과 사회적 신호를 통해 은유적 의미를 전달한다. ViMU는 앞선 영상 이해 벤치마크가 포착하지 못하는 은유적 서브텍스트를 체계적으로 평가하기 위한 다중 태스크 벤치마크를 제시하며, 588개 비디오와 2,352개 문항으로 구성된다. 이를 통해 프런티어 모델이 표면적 인식을 넘어 내부적 의도와 문화적 맥락을 해석하는 능력을 진단한다.
왜 중요한가
비디오 콘텐츠는 시각적 요소뿐 아니라 문화적 맥락과 사회적 신호를 통해 은유적 의미를 전달한다. ViMU는 앞선 영상 이해 벤치마크가 포착하지 못하는 은유적 서브텍스트를 체계적으로 평가하기 위한 다중 태스크 벤치마크를 제시하며, 588개 비디오와 2,352개 문항으로 구성된다. 이를 통해 프런티어 모델이 표면적 인식을 넘어 내부적 의도와 문화적 맥락을 해석하는 능력을 진단한다.
핵심 기여
Hint-free, multi-task ViMU benchmark
ViMU는 오픈 엔디드 해석(OE)과 다중선다형 과제(EG, RM, SV)로 구성되며, 은유적 서브텍스트를 추론하도록 설계된 힌트 없는 평가를 제공한다.
Rich evidence-grounding and taxonomy
다양한 증거 소스(프레임, 오디오, 텍스트)와 TargetSubjects를 포함하는 증거 근거 체계를 활용해 해석이 관측 신호에 근거하는지 평가한다.
Comprehensive model survey
16개의 오픈-웨이트 및 클로즈드-소스 모델을 평가하여 일반 영상 이해와 은유적 이해 간의 차이를 드러낸다.
LLM-driven curation pipeline
GPT-5.4를 이용한 분류 체계 Ti 도출, 힌트 없는 QA 생성, 인간 검토를 포함한 다단계 데이터 큐레이션 파이프라인을 제시한다.
Insights into model behavior
RM/SV 식별의 성능 저하와 증거 선택의 보수적 경향, 지식 계층 간의 구조 왜곡 등을 분석해 은유적 이해의 한계를 진단한다.
관련 Figure

논문의 핵심 기여 중 하나인 메타포 이해의 구성요소를 정량적으로 보여주며, 다양한 증거 소스 및 타깃 대상의 분포를 설명하는 데 직접적으로 기여한다.
ViMU의 수사 기법과 사회 가치 신호의 분포를 시각화한 도표(좌: 수사 기법 분포, 우: 사회 가치 신호 분포).

ViMU의 분류 체계가 어떻게 데이터에 적용되는지 두 축으로 시각화하며, RM/SV 태스크의 어려움을 간접적으로 시사한다.
수사 기법과 사회 가치 신호의 구성을 비교하는 두 개의 원형 차트 도표(수사 기법 및 사회 가치 신호 분포).
핵심 아이디어 이해하기
- 영상 이해는 표면적 콘텐츠를 넘어서는 은유적 서브텍스트를 필요로 한다. 기존 방식은 물체 인식, 행동 추적 등 표면 정보를 중시하는 경향이 크다. 2) ViMU는 은유적 이해를 평가하는 체계로, 시각-청각-텍스트를 통합한 다중 모달 증거를 바탕으로 컨텍스트, 문화 맥락, 그리고 창작자의 의도를 추론하도록 설계했다. 3) 4가지 과제(RM, SV, EG, OE)와 두 축의 지표를 통해 모델의 서브텍스트 해석 능력의 강점과 약점을 식별하고, 도메인에 따라 일반 영상 이해와의 차이를 분석한다.
방법론
Stage 1: Multimodal Evidence Extraction — 모든 비디오에서 균일 샘플링 프레임 Fi와 오디오 전사 ti를 추출해 Ei = {Fi, ti}를 구성한다. Stage 2: LLM-based Taxonomy Annotation — GPT-5.4를 사용해 Ti를 산출하고, Ti에는 LiteralContent와 IntendedMeaning, 그리고 수사 기법(Rhetoric Mechanisms) 및 사회 가치 신호(Social Value Signals)가 포함된다. Stage 3: LLM-based Hint-Free Question Generation — Ti를 기반으로 qi, ai를 생성하되 힌트가 되지 않도록 prompts를 구성한다. Stage 4: Iterative Validation — 질의-qi에 대해 hLLM 피드백을 받아 Q(k+1)로 갱신, 최대 3회 반복. Stage 5: Evidence and Task Construction — Ti를 바탕으로 5가지 증거 소스와 4개 태스크(EG, RM, SV, OE) 구성. Stage 6: Filtering & Human Validation — 충분한 자기 포함성과 해석의 명확성 확보를 위해 5명의 인간 전문 검토자에 의해 최종 벤치마크 확정. 학술적 태스크의 정의는 OE(해석 수준 이해), EG(근거 제시), RM(Rhetoric Mechanism Identification), SV(Social Value Identification)로 구성된다.
관련 Figure

ViMU의 평가 구성과 문제 형식의 구체적 예시를 보여주며, 오픈형 해석(OE)와 구조화된 과제(EG/RM/SV)의 관계를 직관적으로 전달한다.
세 가지 유형의 다중선다형 과제를 예시로 제시하는 화면 샷(증거-grounding, 수사 기법 식별, 사회 가치 신호 식별).
주요 결과
주요 결과로, 현재 최전선 모델은 은유적 이해에서 평균 성능이 50% 미만이다. OE에서 GPT-5.2가 최고치에 근접하는 약 6070%대의 성과를 보였고 EG에서도 유의미한 성과를 보였으나 RM 및 SV에서는 약 2030%대에 머무르는 경향을 보였다. 모델 간 강점은 다르며, 일반 영상 이해에서 잘하는 모델이 은유적 해석에 강하지 않다. Evidence Grounding 분석에서 모델은 증거 선택에서 보수적으로 접근하는 경향이 강하고, 프롬프트 안내 여부에 따른 글로벌 구조 개선은 제한적이다. 전체적으로 RM/SV 태스크와 EG 태스크 사이의 성능 차이가 뚜렷하며, RM/SV에서의 에러는 주로 잘못된 범주 예측보다는 근거 누락에서 기인한다.
기술 상세
ViMU는(1) 증거 소스의 프레임/오디오/텍스트를 결합한 다중모달 Ei를 구성하고, (2) 프런티어 모델로 Ti를 산출하는 LLM 기반 분류 체계를 도입하며, (3) Ti를 바탕으로 질의-응답 쌍(Qi, Ai)을 생성하고 반복적으로 교정하는 QA 생성 파이프라인을 사용한다. (4) 최종적으로 3개의 구조화된 과제(EG, RM, SV)와 1개의 개방형 과제(OE)로 구성된 4종 태스크를 제시한다. (5) RM/SV는 다수의 옵션 중 다중 선택 문제로 구성되고, EG는 증거 소스의 co-선택 패턴을 분석한다. (6) 데이터 큐레이션은 5단계의 파이프라인으로 수행되며, K <= 3의 반복 루프를 통해 힌트 없는 QA를 확보한다.
한계점
주관적 해석의 여지가 여전히 남아 있으며, 벤치마크의 성능이 실제 사회적 이해를 완전히 대변하지는 않는다. 데이터 수집 및 주석 과정에서 annotator bias가 존재할 수 있으며, 벤치마크의 과도한 학습/훈련용 데이터화에 대한 주의가 필요하다. 또한 힌트-free 설계에도 해석의 편향 가능성이 존재하며, 벤치마크의 구조적 한계로 인해 특정 문화권의 은유적 코드를 충분히 포착하지 못할 수 있다.
실무 활용
ViMU는 비디오 서브텍스트 이해를 평가하는 표준 벤치마크로, 현존하는 비디오-LMM의 은유적 해석 능력과 근거 제시 능력을 진단하는 데 사용된다.
- 비디오-RL 기반 모델의 은유적 이해 성능 평가
- 모델의 사회적 신호 해석 능력의 안전성 및 편향 분석
- 은유적 서브텍스트의 에러 패턴 분석 및 개선 방향 제시
- 벤치마크를 활용한 학습 데이터/프롬프트 설계 최적화
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.