PAGER: 점-정밀 기하 GUI 제어에서 의미-실행 간 간극을 연결하다

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

현대 GUI 에이전트는 멀티모달 지능으로 다양한 인터페이스를 제어하지만, 많은 시스템은 근접 픽셀을 허용하는 영역 기반의 상호작용에 의존한다. 이러한 방식은 점 수준의 좌표 정확도와 기하학적 제약을 필요로 하는 정밀 그래픽 구성에서 실패하기 쉬운데, 이는 의존 관계의 누적 오차로 인한 구조 붕괴를 유발한다. PAGE Bench와 PAGER는 이 정밀-민감 영역을 측정하고, 의존 구조화된 계획과 픽셀 수준 실행으로 이 간극을 해소한다.

왜 중요한가

현대 GUI 에이전트는 멀티모달 지능으로 다양한 인터페이스를 제어하지만, 많은 시스템은 근접 픽셀을 허용하는 영역 기반의 상호작용에 의존한다. 이러한 방식은 점 수준의 좌표 정확도와 기하학적 제약을 필요로 하는 정밀 그래픽 구성에서 실패하기 쉬운데, 이는 의존 관계의 누적 오차로 인한 구조 붕괴를 유발한다. PAGE Bench와 PAGER는 이 정밀-민감 영역을 측정하고, 의존 구조화된 계획과 픽셀 수준 실행으로 이 간극을 해소한다.

핵심 기여

PAGE Bench 도입

4,906개의 geometry 문제와 53,277개의 고수준 작업, 224,497개의 낮은 수준 GUI 액션으로 구성된 최초의 정밀 기하 GUI 벤치마크를 제시하고, 프로세스-감독된 궤적과 픽셀 수준 주석을 제공한다.

PAGER 아키텍처

의존성-구조화된 계획(그래프 기반의 하위 작업 순서)과 픽셀 수준 실행으로 생성된 도형 도형을 안정적으로 구성한다.

픽셀-근거 지도 학습 및 정밀 보상

Pixel-grounded supervised tuning으로 실행 문법을 학습하고, 정밀 보상(RL)으로 파라미터 정확도와 작동 타입 보상을 최적화하여 연쇄적 오차 전파를 억제한다.

정밀 GUI 제어에서의 성능 향상

PAGER는 일반 대형 멀티모달 모델 대비 태스크 성공률에서 약 4.1x 향상, 중간 프로세스 점수 41.3을 달성하고 점-정밀 GUI 제어의 새로운 최첨단 성능을 기록한다.

핵심 아이디어 이해하기

정밀-민감 GUI 작업은 연속 캔버스 공간에서 점 단위 좌표 정확도가 필요하며, 작은 좌표 오차가 의존 관계를 통해 후속 도형에 누적된다. 이는 region-tolerant GUI 상에서 발생하는 문제와 다르다. PAGER는 계획 모듈이 의존성 그래프를 구성하여 하위 작업의 순서를 결정하고, 실행 모듈이 현재 캔버스 상태에 조건화된 픽셀 수준 액션을 수행하도록 분리한다. Pixel-grounded SFT는 실행 그랜드의 구문을 학습시키고, RL은 파라미터 정확도 보상과 액션-타입 보상을 결합해 점-레벨 제어를 강화한다. 실험에서 대부분의 모델은 의미 수준은 이해하지만 점-정밀 파라미터를 유지하는 능력이 부족하다. PAGER의 조합은 이러한 약점을 보완한다.

방법론

아키텍처: PAGER는 Planning Module과 Task Execution Module로 구성되며, 문제(Q)로부터 구성 그래프 GQ와 서브-작업 T를 생성한다. 각 서브-작업은 여러 액션으로 분해되며, 각 액션은 (κ, o, ξ)로 표현된다. Pixel-Precise Data Construction: 정밀한 데이터 트래젝토리를 생성하고, 좌표를 캔버스 픽셀로 투사한다. SFT 목표는 로그 확률의 합을 최대화하는 것이다. SL Approach: SFT는 teacher-forced 스크립트를 사용하되 inference 시점에서 상태-의존적 스크린샷을 사용해 rollout의 차이를 줄인다. RL: 보상은 (i) action-type matching, (ii) parameter-accuracy, (iii) dgeo 기반 물리적 유사성으로 정의된다. RL은 KL 제약 하에서 SFT와의 차이를 조절한다. 학습 설정: Qwen3-VL-8B 기반으로 8 GPUs에서 1에폭 학습; 8 후보 샘플, rejection sampling; ZeRO-2 및 bf16. 처리: 도출된 문제에 대해 목표 도형을 GeoGebra 환경에서 재현하고, 각 서브-작업의 액션 시퀀스가 문제의 제약과 일치하도록 평가.

주요 결과

Main Results: PAGER은 Overall 29.52로 최상위 성능을 달성했다. Middle Process 41.25, Final 17.79를 기록했다. Task 성공은 23.78로 strongest baseline인 Gemini-3.1-Pro 대비 약 4.1x 개선이다. Ablation Study: SFT 기반 실행 Prior는 20.47의 Overall을 달성했고, 파라미터 정확도 보상 없이 액션-타입 보상만 사용하면 Task 성능이 크게 감소한다. RLparam만 추가하면 파라미터 정확도는 개선되지만, 여전히 파라미터 drift가 문제로 남는다. RLaction를 추가하면 Task 성능과 Middle 점수 모두 상승하고, 두 보상이 합쳐져 최종적으로 가장 높은 Overall(29.52)을 달성한다.

기술 상세

아키텍처 구조: Planning Module과 Task Execution Module로 구성. GQ 구성 그래프에서 T를 생성하고, 각 T는 다수의 액션으로 분해된다. Pixel-Precise Data Construction은 문제-태스크-비정상 상태 사이의 매핑과 좌표 투사를 포함한다. SFT 손실은 log 확률의 합을 최대화하며, inference 시 self-generated screenshot을 사용해 rollout 차이를 줄인다. RL은 Action Type Reward, Parameter Accuracy Reward, 및 dgeo 기반 거리를 포함하는 복합 보상으로 구성되며 KL 제약 하에 SFT와의 차이를 최소화한다.

실무 활용

정밀 기하 GUI 수행을 필요로 하는 CAD, 다이어그램 편집, 수학 시각화 등에 실무적으로 적용 가능하다.

GeoGebra 스타일의 인터랙티브 도형 구성 자동화
대화형 교육 도구에서 점-정밀 시각화 자동화
CAD 도면에서 의존 관계가 있는 구성을 자동 시뮬레이션

코드 공개 여부: 공개

코드 저장소 보기

키워드

precision-sensitive GUIPAGE BenchPAGERdependency-structured planningpixel-level executiontopology-aware agentexposure biasGeoGebra