AutoGUI-v2: 포괄적인 멀티모달 GUI 기능 이해 벤치마크

기존 GUI 에이전트 평가는 단순히 요소를 찾는 수준에 머물렀으나, 이 논문은 인터페이스의 동적인 변화와 상호작용 결과를 예측하는 능력을 측정하는 새로운 기준을 제시합니다. 6개 운영체제를 아우르는 방대한 데이터를 통해 상용 모델과 오픈소스 모델 간의 뚜렷한 성능 차이를 밝혀냈습니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

관련 Figure

#2Screenshot
단순한 Alt-Text나 HTML 코드를 넘어, 특정 영역이 어떤 기능을 수행하는지에 대한 깊은 맥락 정보를 제공한다는 점을 강조하여 본 연구의 차별성을 보여준다.
기존 벤치마크와 AutoGUI-v2의 기능적 시맨틱 제공 수준을 비교한 그림.

핵심 기여

계층적 기능 영역 주석 파이프라인 구축

VLM과 인간이 협업하여 멀티 플랫폼 스크린샷을 계층적인 기능 영역으로 재귀적으로 파싱하고 주석을 생성하는 확장 가능한 파이프라인을 도입했다.

AutoGUI-v2 대규모 벤치마크 제안

단순한 요소 로컬라이제이션을 넘어 GUI의 동적 상태 변화와 상호작용 결과를 예측하는 2,753개의 평가 과제를 포함하는 벤치마크를 구축했다.

VLM 성능의 이분법적 특성 발견

오픈소스 모델(Qwen3-VL 등)은 기능 기반의 Grounding에서 우수하고, 상용 모델(Gemini-2.5-Pro 등)은 기능 설명(Captioning)에서 우위를 점한다는 사실을 실험적으로 증명했다.

관련 Figure

#1Diagram
계층적 기능 영역 분류 체계와 실제 영역 및 요소 수준에서 수행되는 기능 이해 과제의 구체적인 예시를 시각화하여 벤치마크의 포괄성을 설명한다.
AutoGUI-v2 벤치마크의 구성 요소와 작업 예시를 보여주는 개요도.

핵심 아이디어 이해하기

기존의 GUI 에이전트는 화면상의 버튼을 찾는 Grounding 능력은 갖추었으나, 해당 버튼을 눌렀을 때 시스템 상태가 어떻게 변할지 예측하는 '정신적 모델(Mental Model)'이 부족하다는 한계가 있다. 이는 에이전트가 단순히 시각적 특징에만 반응할 뿐, 인터페이스의 내재된 논리와 기능을 깊이 있게 이해하지 못함을 의미한다.

이 논문은 GUI를 단순한 픽셀의 집합이 아닌, 계층적이고 기능적인 영역(Functional Regions)의 결합으로 정의한다. 예를 들어, '검색창'은 단순한 입력 박스가 아니라 검색 기능을 수행하는 상위 영역의 일부로 파악된다. 이러한 계층적 구조를 통해 에이전트가 특정 요소의 맥락적 의미를 학습하도록 유도한다.

결과적으로 에이전트는 '어디에 있는가'를 넘어 '이것이 무엇을 하는가'와 '상호작용 후 어떤 상태가 되는가'를 동시에 고려하게 된다. 이는 딥러닝 모델이 단순한 패턴 매칭에서 벗어나 인터페이스의 동역학을 추론하는 단계로 진화해야 함을 시사한다.

방법론

AutoGUI-v2는 3단계의 '인간 참여형(Human-in-the-loop)' 파이프라인을 통해 구축된다. 첫 번째 단계인 '자동 제안 및 검증'에서는 Gemini-2.5-Pro-Thinking을 사용하여 스크린샷을 재귀적으로 분할하고 각 영역의 기능과 설명을 생성한다. 이때 [스크린샷 이미지 입력 → VLM의 계층적 분할 연산 → 영역별 Bounding Box 및 기능 설명 출력] 과정을 거치며, divisibility flag가 false가 될 때까지 반복한다.

두 번째 단계는 'Bounding Box 교정'으로, VLM이 생성한 좌표의 기하학적 정밀도를 높이기 위해 인간 작업자가 전용 웹 인터페이스를 통해 박스 위치를 픽셀 단위로 수정한다. 이후 세 번째 단계에서 수정된 이미지를 다시 VLM에 입력하여 정밀해진 시각 정보를 바탕으로 기능 설명(Captioning)을 재작성한다.

평가 지표로는 Grounding 성능 측정을 위한 IoU와 Grounding Center Accuracy(Acc.)를 사용하며, Captioning 성능은 다지선다형 질문 답변 정확도로 측정한다. 또한 시각적 복잡도를 정량화하기 위해 타겟 주변의 요소 밀도를 나타내는 NID(Normalized Interference Density) 개념을 도입하여 모델의 견고성을 분석한다.

관련 Figure

#3Diagram
데이터 준비부터 VLM을 이용한 재귀적 분할, 인간의 교정, 최종 기능 설명 생성까지 이어지는 'Divide-and-Verify' 전략의 전체 워크플로우를 상세히 나타낸다.
AutoGUI-v2의 데이터 주석 파이프라인 단계별 과정.

주요 결과

실험 결과, GUI 전용 데이터로 미세 조정된 오픈소스 모델인 Qwen3-VL-32B-Instruct가 기능 기반 Grounding 정확도 84.4%를 기록하며 상용 모델인 Gemini-2.5-Pro-Thinking(77.6%)을 앞섰다. 이는 특정 도메인 데이터 학습이 로컬라이제이션 정밀도 향상에 기여함을 보여준다.

반면, 상호작용 결과를 예측하는 Captioning 작업에서는 Gemini-2.5-Pro-Thinking이 86.2%의 정확도를 기록하며 오픈소스 모델들을 압도했다. 이는 대규모 상용 모델이 보유한 광범위한 세계 지식이 추상적인 기능 이해와 결과 예측에 더 효과적임을 시사한다.

또한 모든 모델은 '우클릭'이나 '드래그'와 같이 복잡하거나 시각적 피드백이 미묘한 상호작용 예측에서 성능이 급격히 저하되는 공통적인 한계를 보였다. 특히 시각적으로는 유사하지만 기능이 다른 'Hard Negative' 오답 선택지에 쉽게 속는 경향이 확인되었다.

관련 Figure

#6Screenshot
모델이 일반적인 GUI 요소는 잘 이해하지만, 상태가 변하거나 복잡한 기능을 가진 요소(예: 긴 소프트웨어 상태 바)에서는 추론에 실패하는 구체적인 사례를 분석한다.
Gemini-2.5-Pro-Thinking의 성공 및 실패 사례 시각화.

기술 상세

AutoGUI-v2는 6개 운영체제(Android, Windows, Linux, MacOS, iOS, Web)에서 수집된 스크린샷을 기반으로 2,753개의 과제를 생성한다. 아키텍처 측면에서 OmniParser-v2를 활용하여 요소 수준의 Grounding을 보조하며, Qwen3-Embedding을 통해 영역 설명 간의 코사인 유사도를 계산하여 시각적으로 유사한 그룹을 클러스터링한다.

모델의 추론 능력을 엄격하게 테스트하기 위해 'Hard Negative' 샘플을 전략적으로 배치한다. 이는 동일한 시각적 패턴을 공유하지만 기능이 다른 요소들을 오답 후보로 제시하여, 모델이 단순히 외형에 의존하지 않고 문맥적 기능을 파악해야만 정답을 맞힐 수 있도록 설계된 구조다.

또한 NID(Normalized Interference Density) 분석을 통해 모델이 주변 요소가 많은 'Dense' 환경에서 더 높은 성능을 보이는 경향을 발견했다. 이는 상용 모델들이 주변 레이아웃 구조에서 제공되는 풍부한 문맥적 단서를 활용하여 기능을 유추하고 있음을 기술적으로 뒷받침한다.

관련 Figure

#4Diagram
시맨틱 클러스터링과 VLM 검증을 통해 시각적으로 유사하지만 기능이 다른 요소들을 식별하고, 이를 바탕으로 도전적인 평가 문항을 생성하는 과정을 설명한다.
영역 및 요소 수준의 과제 생성 파이프라인 다이어그램.

한계점

현재 AutoGUI-v2는 완전 자동화된 주석 시스템이 아니며, Bounding Box 교정을 위해 인간 작업자의 개입이 필수적이라는 점에서 확장성에 한계가 있다. 또한 기능 설명이 단일 단계 명령에 국한되어 있어, 장기적인 작업 시퀀스(Long task sequence)에서의 계획 수립 능력과의 상관관계는 아직 분석되지 않았다.

실무 활용

AutoGUI-v2는 차세대 자율형 GUI 에이전트 개발을 위한 핵심 평가 도구로 활용될 수 있습니다. 개발자는 이 벤치마크를 통해 모델의 단순 시각 인식 능력을 넘어 논리적 추론 능력을 검증하고 개선할 수 있습니다.

VLM 기반 GUI 에이전트의 기능 이해도 및 상태 예측 능력 벤치마킹
다양한 운영체제(Windows, MacOS, Android 등) 환경에서의 에이전트 범용성 테스트
시각적으로 유사한 UI 요소 간의 기능적 차이를 구분하는 미세 조정 데이터셋 생성

코드 공개 여부: 공개

코드 저장소 보기

키워드

VLM(시각 언어 모델)GUI(그래픽 사용자 인터페이스)Benchmark(벤치마크)Semantic Grounding(의미론적 접지)Agent(에이전트)

AutoGUI-v2: 포괄적인 멀티모달 GUI 기능 이해 벤치마크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

관련 Figure

핵심 기여

계층적 기능 영역 주석 파이프라인 구축

VLM과 인간이 협업하여 멀티 플랫폼 스크린샷을 계층적인 기능 영역으로 재귀적으로 파싱하고 주석을 생성하는 확장 가능한 파이프라인을 도입했다.

AutoGUI-v2 대규모 벤치마크 제안

단순한 요소 로컬라이제이션을 넘어 GUI의 동적 상태 변화와 상호작용 결과를 예측하는 2,753개의 평가 과제를 포함하는 벤치마크를 구축했다.

VLM 성능의 이분법적 특성 발견

관련 Figure

핵심 아이디어 이해하기

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

관련 Figure

한계점

실무 활용

VLM 기반 GUI 에이전트의 기능 이해도 및 상태 예측 능력 벤치마킹
다양한 운영체제(Windows, MacOS, Android 등) 환경에서의 에이전트 범용성 테스트
시각적으로 유사한 UI 요소 간의 기능적 차이를 구분하는 미세 조정 데이터셋 생성

코드 공개 여부: 공개

코드 저장소 보기

키워드

VLM(시각 언어 모델)GUI(그래픽 사용자 인터페이스)Benchmark(벤치마크)Semantic Grounding(의미론적 접지)Agent(에이전트)

AutoGUI-v2: 포괄적인 멀티모달 GUI 기능 이해 벤치마크

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

AutoGUI-v2: 포괄적인 멀티모달 GUI 기능 이해 벤치마크

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드