게으른 어텐션 국소화
멀티모달 콜드스타트 학습 시 모델이 시각적 토큰에 대한 어텐션을 높이지 못하고 기존의 텍스트 중심 어텐션 분포를 그대로 유지하려는 현상이다. 이는 모델이 시각 정보를 추론의 핵심 근거로 활용하는 데 방해가 되는 병목 현상으로 작용한다.