텍스트 우세
멀티모달 모델이 오디오나 이미지 같은 비텍스트 입력보다 학습 시 더 많이 접한 텍스트의 통계적 패턴에 치우쳐 판단하는 현상입니다. 이로 인해 실제 소리와 다른 텍스트 위주의 오답을 낼 수 있습니다.