시각이 소리에 말을 건네다: 영상-capable 다중모달 모델의 음향-시각 정합에 대한 THUD 진단과 정렬

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

비디오에서 소리를 이해하는 능력이 실제로는 시각적 신호에 의한 shortcut일 수 있음을 보여준다. THUD 인터벤션과 두 단계 정렬로 시각 우선 숏컷을 해체하고, 음향 존재 여부와 시간 정합성, 소리-시각의 물리적 일치를 검증하는 방법을 제시한다.

왜 중요한가

비디오에서 소리를 이해하는 능력이 실제로는 시각적 신호에 의한 shortcut일 수 있음을 보여준다. THUD 인터벤션과 두 단계 정렬로 시각 우선 숏컷을 해체하고, 음향 존재 여부와 시간 정합성, 소리-시각의 물리적 일치를 검증하는 방법을 제시한다.

핵심 기여

Clever Hans 현상의 식별

비디오-capable MLLM에서 음향-시각 정합이 시각 priors에 의해 좌우되며 실제 오디오 증거를 확인하지 않는 Clever Hans 현상을 체계적으로 식별한다.

THUD: 인터벤션 기반 진단 프로토콜

Shift(시간 동기화), Mute(음향 존재), Swap(오디오-시각 일치성) 3가지 물리적 개입으로 음향-시각 정합의 존재/시간/일치를 교란 없이 평가한다.

Two-stage Alignment

intervention-derived preference와 일반 비디오 데이터의 결합으로 SFT + DPO를 통해 음향 검증에 중점을 두되 일반 벤치마크를 유지한다.

강화된 시간적 정합 능력 확보

10K 샘플 조합에서 Sync 83.1%, VGGSync 56.4%, Avg 63.3%로 기존 대비 개선하여 일반 벤치마크의 손실 없이 시간적 정합을 향상시킨다.

핵심 아이디어 이해하기

[단락 1] 시각 priors에 의해 음향-시각 정합이 좌우될 수 있음을 정의하고, 이를 Clever Hans 현상으로 명명한다. 영상에서 보이는 사건이 실제 소리를 대신 예측하도록 만드는 단순한 시각-음향 동시성에 의존하는 경향이 실질적 음향 검증을 방해한다.

방법론

[단락 2] THUD는 v = (x1:T, a1:T) 형식의 비디오를 대상으로 Shift, Mute, Swap 세 가지 물리적 개입을 적용해 counterfactual 비디오를 생성한다. 교정된 이벤트-타임스탬프(z_i) 라벨은 Gemini를 기반으로 하되, 프롬프트-단위 검증으로 GPT/Claude가 시각 타임스탬프를 재확인한다. 선호 쌍 D_pref를 구성해 chosen(오디오-시각 정합 확인)/rejected(시각적 유망성)로 학습한다.

주요 결과

[단락 3] 표 1에서 Orig 대비 Shift/Mute/Swap에서 큰 하락이 관찰되며 Avg Gap이 모델별로 크게 차이난다. 예를 들어 MiniCPM-o-4.5와 MiMo-V2.5는 80.7%와 78.4%의 Avg Gap를 보인다. 그림 3은 모든 모델에서 Mute Hallucination과 Swap False-Match가 두드러져, 음향 증거를 확인하기보다 시각 priors에 의존하는 경향을 보여준다. Qwen3-Omni의 Shift에서 원본 Sync 정확도가 1.4%로 급감하는 등 시간 정합에 취약함이 나타난다.

기술 상세

각 모듈의 세부 구현은 본문에 상세히 기술되며, THUD 파이프라인은 Intervention 데이터 소스(SFT + FV-D/FV-AVQA 등)와 일반 비디오 데이터를 혼합하는 2단계 학습 파이프라인으로 구성된다. 데이터 생성은 Oops 데이터셋에서 선발된 사례를 바탕으로 시각/오디오 타임스탬프의 합의 기준을 적용하고, 선택/반대 응답 쌍을 구성해 음향 검증 중심의 방향으로 모델을 학습시킨다. 실험 설정은 8 GPU H200/H100에서 진행되며 SFT는 약 6시간, 10K 예제 DPO는 약 20시간이 소요된다.

실무 활용

Counterfactual 오디오-비주얼 개입을 활용해 음향 검증을 강화하는 접근이 비디오 이해 시스템의 신뢰성을 높인다.

실시간 영상 모니터링에서 음향 증거를 검증하는 시스템
비디오 QA 및 대화형 에이전트에서 오디오 증거에 의존하는 응답을 교정하는 시스템

코드 공개 여부: 공개

코드 저장소 보기

키워드

THUDClever Hans effectaudio-visual groundingtemporal synchronizationinterventionsShift/Mute/Swaptwo-stage alignment