언어적 지름길
멀티모달 모델이 시각적 정보를 분석하는 대신 질문 텍스트의 패턴이나 편향성만을 이용해 정답을 맞히는 현상이다. 이는 모델의 실제 시각 이해 능력을 왜곡하며 성능 평가의 신뢰도를 떨어뜨리는 주요 원인이 된다.