공간 국소화
이미지 내에서 특정 객체나 특징이 위치한 정확한 좌표나 영역을 식별하는 능력이다. VLM이 이미지의 구조를 정확히 파악하는 데 필수적인 기술이다.
도형은 못 읽고 텍스트만 읽는 VLM? 공간 인식의 치명적 약점 발견