공간적 맹목성
멀티모달 모델이 이미지 속 물체의 종류는 인식하지만, 물체 간의 정확한 거리, 방향, 입체적 위치 관계를 파악하지 못하는 한계를 의미한다. 2D 데이터 위주의 학습으로 인해 발생하는 고질적인 문제이다.