모달리티 편향
멀티모달 모델이 여러 입력 정보 중 특정 정보(주로 텍스트)에만 과도하게 의존하여 결과를 도출하는 현상이다. 비디오 분석에서 시각적 근거를 무시하고 질문의 텍스트 힌트만으로 답을 찾는 문제를 야기한다.