TL;DR
비디오에서 소리를 이해하는 능력이 실제로는 시각적 신호에 의한 shortcut일 수 있음을 보여준다. THUD 인터벤션과 두 단계 정렬로 시각 우선 숏컷을 해체하고, 음향 존재 여부와 시간 정합성, 소리-시각의 물리적 일치를 검증하는 방법을 제시한다.
왜 중요한가
비디오에서 소리를 이해하는 능력이 실제로는 시각적 신호에 의한 shortcut일 수 있음을 보여준다. THUD 인터벤션과 두 단계 정렬로 시각 우선 숏컷을 해체하고, 음향 존재 여부와 시간 정합성, 소리-시각의 물리적 일치를 검증하는 방법을 제시한다.
핵심 기여
Clever Hans 현상의 식별
비디오-capable MLLM에서 음향-시각 정합이 시각 priors에 의해 좌우되며 실제 오디오 증거를 확인하지 않는 Clever Hans 현상을 체계적으로 식별한다.
THUD: 인터벤션 기반 진단 프로토콜
Shift(시간 동기화), Mute(음향 존재), Swap(오디오-시각 일치성) 3가지 물리적 개입으로 음향-시각 정합의 존재/시간/일치를 교란 없이 평가한다.
Two-stage Alignment
intervention-derived preference와 일반 비디오 데이터의 결합으로 SFT + DPO를 통해 음향 검증에 중점을 두되 일반 벤치마크를 유지한다.
강화된 시간적 정합 능력 확보
10K 샘플 조합에서 Sync 83.1%, VGGSync 56.4%, Avg 63.3%로 기존 대비 개선하여 일반 벤치마크의 손실 없이 시간적 정합을 향상시킨다.
핵심 아이디어 이해하기
[단락 1] 시각 priors에 의해 음향-시각 정합이 좌우될 수 있음을 정의하고, 이를 Clever Hans 현상으로 명명한다. 영상에서 보이는 사건이 실제 소리를 대신 예측하도록 만드는 단순한 시각-음향 동시성에 의존하는 경향이 실질적 음향 검증을 방해한다.
관련 Figure

비디오-오디오 불일치가 시각 priors에 의해 좌우될 수 있음을 시각적으로 강조한다.
Crash 예시의 동일한 시각적 사건에도 오디오 트랙이 달라져도 모델 출력을 바꿀 수 있음을 보여주는 예시.
방법론
[단락 2] THUD는 v = (x1:T, a1:T) 형식의 비디오를 대상으로 Shift, Mute, Swap 세 가지 물리적 개입을 적용해 counterfactual 비디오를 생성한다. 교정된 이벤트-타임스탬프(z_i) 라벨은 Gemini를 기반으로 하되, 프롬프트-단위 검증으로 GPT/Claude가 시각 타임스탬프를 재확인한다. 선호 쌍 D_pref를 구성해 chosen(오디오-시각 정합 확인)/rejected(시각적 유망성)로 학습한다.
관련 Figure

도표는 THUD의 핵심 구성요소를 한 눈에 보여주며 Interventions의 정의, 선택지, 평가 흐름의 관계를 설명한다.
THUD 도식 – 3가지 물리적 간섭이 흐름상 연결되어 있다.

데이터 sourcing, Intervention, Annotation, Verification의 단계가 THUD 설계의 핵심임을 시각화한다.
데이터 파이프라인 및 Cross-model verification 흐름의 개념도.
주요 결과
[단락 3] 표 1에서 Orig 대비 Shift/Mute/Swap에서 큰 하락이 관찰되며 Avg Gap이 모델별로 크게 차이난다. 예를 들어 MiniCPM-o-4.5와 MiMo-V2.5는 80.7%와 78.4%의 Avg Gap를 보인다. 그림 3은 모든 모델에서 Mute Hallucination과 Swap False-Match가 두드러져, 음향 증거를 확인하기보다 시각 priors에 의존하는 경향을 보여준다. Qwen3-Omni의 Shift에서 원본 Sync 정확도가 1.4%로 급감하는 등 시간 정합에 취약함이 나타난다.
관련 Figure

모델에서 음향 환상이 주된 실패 모드이며, 특정 모델에서 Shift의 방향성 인식이 떨어진다는 것을 보여준다.
Figure 3: Failure-mode heatmap – 무성한 음향 환상과 시간적 실패.

Mute/Swap에서 Hallucinated synced가 큰 비율로 나타나 시각 우선의 징후를 보여준다.
Figure 4: Prediction breakdown – 대부분 Hallucinated synced로 분류.

난이도가 커질수록 정합 검출이 어려워지나 제시된 방법으로 견고함이 증가한다.
Figure 5: Synchronization 정확도 및 난이도 구간 비교.

오디오-비주얼 정합의 정밀도와 로컬라이제이션 커버리지 개선.
Figure 6: Temporal 정합에서 오디오-비주얼 분류의 비교.

인터벤션 학습이 일반 벤치마크에 미치는 영향을 보여주며, 음향-시각 검증의 일반화 가능성을 시사한다.
Figure 7: Temporal 동기화의 개선이 Swap/Mute에서도 이득을 준다.
기술 상세
각 모듈의 세부 구현은 본문에 상세히 기술되며, THUD 파이프라인은 Intervention 데이터 소스(SFT + FV-D/FV-AVQA 등)와 일반 비디오 데이터를 혼합하는 2단계 학습 파이프라인으로 구성된다. 데이터 생성은 Oops 데이터셋에서 선발된 사례를 바탕으로 시각/오디오 타임스탬프의 합의 기준을 적용하고, 선택/반대 응답 쌍을 구성해 음향 검증 중심의 방향으로 모델을 학습시킨다. 실험 설정은 8 GPU H200/H100에서 진행되며 SFT는 약 6시간, 10K 예제 DPO는 약 20시간이 소요된다.
실무 활용
Counterfactual 오디오-비주얼 개입을 활용해 음향 검증을 강화하는 접근이 비디오 이해 시스템의 신뢰성을 높인다.
- 실시간 영상 모니터링에서 음향 증거를 검증하는 시스템
- 비디오 QA 및 대화형 에이전트에서 오디오 증거에 의존하는 응답을 교정하는 시스템
- 콘텐츠 관리 및 저작권 모니터링에서 소리의 실제 존재 여부를 확인하는 도구
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.