GUI 요소 그라운딩
자연어 지시사항을 바탕으로 스크린샷 내의 특정 UI 요소(버튼, 텍스트 박스 등)의 정확한 위치를 좌표로 찾아내는 기술이다. GUI 에이전트가 사용자의 명령을 수행하기 위해 화면의 어디를 클릭하거나 조작해야 하는지 결정하는 핵심적인 단계이다.