UI-Zoomer: GUI 그라운딩을 위한 불확실성 기반 적응형 확대 프레임워크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존의 GUI 에이전트는 화면 내 작은 아이콘이나 밀집된 레이아웃을 정확히 클릭하는 데 어려움을 겪었습니다. 이 논문은 모델이 스스로 예측의 불확실성을 판단하여 필요한 경우에만 필요한 만큼 화면을 확대하는 기술을 제안하여, 추가적인 모델 학습 없이도 정밀한 조작 성능을 크게 개선했습니다.

왜 중요한가

기존의 GUI 에이전트는 화면 내 작은 아이콘이나 밀집된 레이아웃을 정확히 클릭하는 데 어려움을 겪었습니다. 이 논문은 모델이 스스로 예측의 불확실성을 판단하여 필요한 경우에만 필요한 만큼 화면을 확대하는 기술을 제안하여, 추가적인 모델 학습 없이도 정밀한 조작 성능을 크게 개선했습니다.

관련 Figure

#1Diagram
직접 그라운딩(a)의 밀집 인터페이스 한계와 반복 크롭(b)의 높은 비용 및 고정 비율 문제를 보여준다. UI-Zoomer(c)는 신뢰도 게이팅을 통해 필요한 경우에만 적응형 크롭을 수행하여 효율성과 정확도를 모두 잡았음을 시각화한다.
기존 GUI 그라운딩 방식과 UI-Zoomer의 비교 다이어그램

핵심 기여

UI-Zoomer 프레임워크 제안

추가 학습이 필요 없는 training-free 방식의 적응형 확대 프레임워크로, 확대 여부(trigger)와 확대 배율(scale)을 예측 불확실성 정량화 문제로 정의했다.

신뢰도 기반 게이팅 메커니즘

여러 샘플 간의 공간적 합의(spatial consensus)와 토큰 레벨의 생성 신뢰도를 결합하여, 모델이 확신하지 못하는 경우에만 선택적으로 확대를 실행하도록 설계했다.

불확실성 기반 적응형 크롭 사이징

예측 분산을 샘플 간 위치 분산과 샘플 내 박스 크기로 분해하여, 각 인스턴스에 최적화된 크롭 반경을 도출하는 모듈을 도입했다.

주요 벤치마크 SOTA 달성

ScreenSpot-Pro, UI-Vision, ScreenSpot-v2 데이터셋에서 기존 강력한 베이스라인 대비 각각 최대 +13.4%, +10.3%, +4.2%의 성능 향상을 기록했다.

핵심 아이디어 이해하기

기존의 화면 확대(Zoom-in) 방식은 모든 경우에 일률적인 배율을 적용하거나 실행 오류가 발생한 뒤에야 작동하는 한계가 있었다. 이는 이미 충분히 잘 맞추고 있는 쉬운 케이스에서도 불필요한 연산을 수행하게 만들고, 오히려 전체적인 맥락을 잃게 하여 정확도를 떨어뜨리는 결과를 초래했다. Transformer 기반의 VLM이 출력하는 좌표 토큰들의 확률 분포와 여러 번 샘플링했을 때 나타나는 결과값들의 흩어짐 정도는 모델이 해당 작업을 얼마나 어려워하는지를 나타내는 직접적인 지표가 된다.

UI-Zoomer는 이 '예측의 흩어짐(Variance)'을 활용한다. 모델에게 동일한 질문을 여러 번 던져서 나온 결과들이 한곳에 모여 있고 확신이 높다면 그대로 결과를 채택한다. 반면, 결과들이 사방으로 흩어져 있다면 모델이 혼란을 겪고 있다고 판단하여 해당 영역을 중심으로 화면을 확대한다. 이때 단순히 고정된 크기로 자르는 것이 아니라, 결과값들이 퍼져 있는 범위에 맞춰 자르는 영역의 크기를 유연하게 조절한다.

결과적으로 모델은 작은 아이콘처럼 정밀도가 필요한 대상에 대해서는 돋보기를 들이대듯 세밀하게 관찰하고, 명확한 대상에 대해서는 한 번에 처리함으로써 정확도와 효율성을 동시에 확보한다. 이는 딥러닝의 확률적 특성을 추론 시점의 의사결정에 직접 연결하여 모델의 물리적 해상도 한계를 극복한 접근이다.

방법론

UI-Zoomer는 크게 세 단계로 작동한다. 첫 번째 단계는 Global Multi-Sampling으로, 온도(Temperature) T=0.9 설정에서 N=8개의 후보 박스를 생성한다. 각 후보 i에 대해 토큰 확률의 기하평균을 계산하여 신뢰도 c_i를 산출한다.

두 번째 단계는 Reliability Gating이다. 모든 후보 쌍 간의 평균 IoU를 계산한 공간적 합의 C_spatial과 평균 신뢰도 c_bar를 합산하여 게이팅 점수 S를 구한다. [S = C_spatial + c_bar] 연산을 통해 점수가 임계값 τ보다 높으면 모델이 충분히 확신한다고 판단하여 즉시 다수결 투표(Consensus Voting)로 최종 좌표를 결정하고 종료한다.

세 번째 단계는 Uncertainty-Driven Adaptive Crop이다. S가 τ 이하인 경우, 후보들의 중심점 위치 분산(v_inter)과 각 박스의 크기 정보(v_intra)를 결합하여 전체 분산 σ²을 계산한다. [σ = sqrt(v_inter + v_intra)] 연산으로 얻은 표준편차에 스케일 인자 γ를 곱해 크롭 반경 r을 결정한다. 이렇게 결정된 영역을 다시 모델의 입력 해상도로 리사이징하여 재추론을 수행함으로써 정밀한 좌표를 얻는다.

관련 Figure

#2Diagram
멀티 샘플링 후 신뢰도 게이팅을 거쳐, 불확실한 경우 2D 가우시안 모델링과 분산 분해를 통해 적응형 크롭 영역을 결정하는 과정을 단계별로 설명한다. 최종적으로 크롭된 이미지에서 재추론하여 정확도를 높이는 메커니즘을 보여준다.
UI-Zoomer의 전체 워크플로우 상세 구조

주요 결과

ScreenSpot-Pro 벤치마크에서 UI-Venus-7B 모델에 UI-Zoomer를 적용했을 때, 기본 모델 대비 11.8% 향상된 61.8%의 정확도를 기록했다. 특히 텍스트 타겟(+11.4%)보다 크기가 작고 모호한 아이콘 타겟(+12.5%)에서 더 큰 성능 향상을 보였다.

UI-Vision 데이터셋에서는 Qwen2.5-VL-7B 모델 기준 +10.3%의 성능 향상을 보였으며, 특히 공간적(Spatial) 카테고리에서 +6.3%의 개선을 확인했다. 이는 적응형 크롭이 복잡한 레이아웃 내의 위치 관계 파악에 효과적임을 입증한다.

ScreenSpot-v2 실험 결과, 무조건적인 확대를 수행하는 DiMo-GUI 방식은 오히려 정확도가 하락(81.84% → 77.20%)하고 추론 시간은 10배 이상 증가한 반면, UI-Zoomer는 정확도를 유지하거나 개선하면서도 추론 시간 증가를 최소화했다. Ablation Study를 통해 공간적 합의와 토큰 신뢰도를 모두 사용할 때 가장 높은 게이팅 성능이 나타남을 확인했다.

관련 Figure

#3Chart
임계값이 너무 높거나 낮을 때보다 적절한 중간 지점에서 최적의 정확도가 나타남을 보여준다. 또한 임계값이 높아질수록 확대(Crop) 비율이 늘어나며 추론 시간도 선형적으로 증가하는 트레이드오프 관계를 명확히 제시한다.
게이팅 임계값 τ에 따른 정확도 및 추론 시간 변화 그래프

기술 상세

UI-Zoomer는 VLM의 추론 시점 스케일링(Test-Time Scaling)을 위한 아키텍처로, 모델 가중치를 수정하지 않는 플러그인 형태다. 핵심은 '전체 분산의 법칙(Law of Total Variance)'을 좌표 예측에 적용한 것이다. 타겟 위치 Z의 분산을 모델 입력 I가 주어졌을 때의 조건부 기댓값의 분산(v_inter)과 조건부 분산의 기댓값(v_intra)으로 분해하여 모델의 불확실성을 물리적인 크롭 영역으로 변환한다.

v_inter는 샘플링된 중심점들이 평균에서 얼마나 떨어져 있는지를 측정하며, v_intra는 각 샘플이 예측한 객체의 크기(너비/높이)를 가우시안 분포의 ±2σ 범위로 간주하여 계산한다. 이를 통해 후보들이 서로 다른 곳을 가리키면 크롭 영역이 넓어지고, 후보들이 일치하더라도 예측된 객체 자체가 크면 그에 맞춰 크롭 영역이 확보되도록 설계했다.

또한, 이상치(Outlier)에 의한 크롭 영역 왜곡을 방지하기 위해 중심점에서 가장 가까운 75%의 후보만 사용하는 필터링 과정을 포함한다. 최종 크롭 영역은 시각적 맥락 보존을 위해 항상 정사각형(Squarify)으로 유지하며, 이미지 경계를 벗어날 경우 크기를 유지한 채 안쪽으로 이동(Shift)시키는 전략을 취해 정보 손실을 방지한다.

관련 Figure

#4Chart
두 지표가 서로 보완적인 특성을 가짐을 보여준다. 공간적 합의는 넓게 퍼진 분포를 보이고 평균 신뢰도는 특정 구간에 집중되어 있어, 이 둘을 결합했을 때 불확실한 샘플을 더 효과적으로 식별할 수 있음을 입증한다.
공간적 합의(C_spatial)와 평균 신뢰도(avg_conf)의 분포 히스토그램

한계점

매우 밀집된 레이아웃에서 서로 유사하게 생긴 아이콘들이 여러 개 존재할 경우(Strong visual distractors), 모델이 여전히 혼란을 겪어 잘못된 영역을 확대하거나 오답을 낼 수 있다. 또한, 타겟이 극도로 작아서 초기 샘플링 단계에서 후보들이 타겟 근처에 전혀 생성되지 않는 경우에는 복구가 어렵다는 한계가 있다.

키워드

GUI Grounding(GUI 그라운딩)Uncertainty Quantification(불확실성 정량화)Test-Time Scaling(추론 시점 스케일링)Adaptive Cropping(적응형 크롭)VLM(시각 언어 모델)

UI-Zoomer: GUI 그라운딩을 위한 불확실성 기반 적응형 확대 프레임워크

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드