시각적 접지
이미지 내의 특정 객체나 영역의 위치를 텍스트 설명과 연결하는 기술이다. GUI 자동화에서는 모델이 '로그인 버튼'이라는 텍스트를 화면상의 특정 좌표와 매칭하는 데 필수적이다.
RTX 4070으로 구현하는 로컬 GUI 자동화: 최적의 VLM과 런타임은?