GoClick: 자율적 GUI 상호작용을 위한 경량 요소 그라운딩 모델

기존 GUI 에이전트는 2.5B 이상의 거대 모델을 사용해야 했기에 모바일 기기 등에서 실시간으로 구동하기 어려웠다. GoClick은 모델 크기를 10분의 1 수준으로 줄이면서도 정밀한 데이터 정제와 최적화된 아키텍처를 통해 대형 모델에 필적하는 위치 찾기 성능을 구현했다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

경량 인코더-디코더 아키텍처 채택

소규모 파라미터 환경에서 디코더 전용(Decoder-only) 모델보다 Florence-2 기반의 인코더-디코더 구조가 GUI 요소의 좌표를 예측하는 데 훨씬 더 높은 효율성과 정확도를 보임을 증명했다.

Progressive Data Refinement(PDR) 파이프라인

10.8M개의 대규모 원시 데이터에서 유해하거나 중복된 샘플을 단계적으로 제거하여, 3.8M개의 고품질 핵심 데이터셋(Core Set)을 추출하는 체계적인 데이터 정제 방법론을 제안했다.

기기-클라우드 협업 프레임워크 성능 입증

클라우드의 대형 모델(GPT-4o)이 계획을 세우고 기기 내의 GoClick이 정밀한 클릭 위치를 찾는 협업 방식을 통해, 단독 모델 사용 시보다 높은 작업 성공률을 달성했다.

핵심 아이디어 이해하기

GUI 요소 그라운딩은 화면 이미지와 텍스트 명령을 입력받아 특정 좌표를 출력하는 작업이다. 기존에는 대규모 언어 모델(LLM)의 강력한 추론 능력을 빌리기 위해 디코더 전용 구조를 주로 사용했으나, 이는 모델이 작아질수록 좌표 예측이라는 좁고 정밀한 작업에서 성능이 급격히 저하되는 한계가 있었다.

GoClick은 이 문제를 해결하기 위해 인코더-디코더 구조를 선택했다. 인코더는 이미지와 텍스트의 복합적인 특징을 추출하는 데 집중하고, 디코더는 자유로운 텍스트 생성 대신 좌표값 출력이라는 특정 목적에 최적화된 연산을 수행한다. 이는 마치 넓은 분야를 얕게 아는 일반인보다 특정 기술에 숙련된 전문가가 작은 도구로도 정밀한 작업을 잘 수행하는 것과 같은 원리이다.

결과적으로 GoClick은 단 230M의 파라미터만으로도 7B(70억) 규모의 모델들과 대등한 수준의 위치 정확도를 확보했다. 이는 임베딩 공간에서 시각적 정보와 언어적 지시사항을 결합하는 방식이 모델의 크기보다 데이터의 질과 구조적 적합성에 더 큰 영향을 받는다는 점을 시사한다.

방법론

GoClick은 Florence-2를 기반 모델로 채택하여 시각 인코더(ViT)와 트랜스포머 기반의 멀티모달 인코더-디코더 구조를 결합했다. 입력 이미지 I가 주어지면 시각 인코더 f_phi를 통해 패치 특징 벡터 V_img를 추출하고, 이를 투영 레이어 Proj_omega를 거쳐 시각 토큰 임베딩 E_img로 변환한다. 동시에 텍스트 지시사항 t는 임베딩 모듈을 통해 E_txt로 변환되며, 이 두 임베딩이 결합되어 인코더-디코더 블록의 입력값으로 사용된다.

데이터 학습을 위해 Progressive Data Refinement(PDR) 파이프라인을 구축했다. 먼저 10.8M개의 원시 데이터에서 구식 GUI 패턴(Android 4.0 등)과 성능에 도움이 되지 않는 역방향 작업(좌표를 보고 설명을 생성하는 REG) 샘플을 제거하는 Coarse-grained Refinement를 수행한다. 이후 각 데이터 소스별로 학습 기여도를 분석하여 최적의 비율로 샘플을 재조정하는 Fine-grained Refinement를 통해 최종 3.8M개의 핵심 데이터셋을 구성한다.

주요 결과

GoClick-L(800M) 모델은 FuncPred, MOTIF, RefExp 등 주요 GUI 벤치마크에서 7B 규모의 대형 모델인 Qwen2VL-7B 및 UGround를 능가하는 성적을 거두었다. 특히 FuncPred 벤치마크에서 69.5%의 정확도를 기록하며 비교 대상 모델 중 가장 높은 성능을 보였다. 가장 작은 버전인 GoClick-B(230M) 또한 7B 모델들과 대등한 수준의 성능을 유지하면서 추론 속도는 수 배 이상 빨라졌다.

효율성 측면에서 GoClick-B는 TTFT(첫 토큰 생성 시간) 37.7ms, TPOT(토큰당 생성 시간) 4.1ms를 기록하여, 8B 모델인 OS-ATLAS-8B(TTFT 137.5ms, TPOT 19.9ms) 대비 압도적인 속도 우위를 점했다. 이는 모바일 기기에서의 실시간 GUI 에이전트 구현 가능성을 입증한 결과이다.

기술 상세

GoClick 아키텍처는 Florence-2의 설계를 계승하여 시각적 특징 추출과 좌표 예측 사이의 정렬(Alignment)을 극대화했다. 디코더는 [0, 1000] 범위로 정규화된 좌표 토큰을 생성하도록 학습되었으며, 이는 모델이 텍스트 생성의 부담을 덜고 공간적 이해에 파라미터를 집중할 수 있게 한다.

학습 과정에서는 8개의 L20 GPU를 사용하여 2에폭(Epoch) 동안 파인튜닝을 진행했다. 실험 결과, 단순히 데이터를 많이 넣는 것보다 최신 GUI 디자인 패턴을 반영한 데이터를 선별하고, 텍스트 그라운딩과 의도(Intent) 그라운딩 사이의 균형을 맞추는 것이 소형 모델의 성능 한계를 돌파하는 핵심 요인임을 확인했다.

한계점

GoClick의 아키텍처는 GUI 요소 그라운딩에 특화되어 있어, 일반적인 대화나 복잡한 추론이 필요한 다른 GUI 관련 작업으로의 일반화 가능성은 아직 검증되지 않았다. 또한 데이터 정제 과정이 일부 휴리스틱(경험적) 방식에 의존하고 있어, GUI 디자인의 급격한 변화에 대응하기 위해 주기적인 재학습이 필요할 수 있다.

실무 활용

모바일 및 웹 환경에서 저지연 GUI 에이전트를 구현하는 데 즉시 활용 가능하다. 특히 기기 내부에서 경량 모델이 위치를 찾고, 클라우드에서 대형 모델이 복잡한 계획을 세우는 협업 구조에 최적화되어 있다.

모바일 앱 자동화 테스트 및 QA 도구
시각 장애인을 위한 스마트폰 인터페이스 조작 보조
복잡한 웹 서비스의 단계별 작업 수행 에이전트

코드 공개 여부: 공개

코드 저장소 보기

키워드

GUI Agent(GUI 에이전트)Visual Grounding(시각적 그라운딩)Lightweight VLM(경량 시각 언어 모델)On-device AI(온디바이스 AI)

코드 예제

python

o = Encoder-Decoder_theta([Proj_omega(f_phi(I)), Embed(t)])

이미지 인코더와 텍스트 임베딩을 결합하여 디코더로 전달하는 GoClick의 핵심 모델 추론 수식

GoClick: 자율적 GUI 상호작용을 위한 경량 요소 그라운딩 모델

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

경량 인코더-디코더 아키텍처 채택

Progressive Data Refinement(PDR) 파이프라인

기기-클라우드 협업 프레임워크 성능 입증

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

모바일 앱 자동화 테스트 및 QA 도구
시각 장애인을 위한 스마트폰 인터페이스 조작 보조
복잡한 웹 서비스의 단계별 작업 수행 에이전트

코드 공개 여부: 공개

코드 저장소 보기

키워드

GUI Agent(GUI 에이전트)Visual Grounding(시각적 그라운딩)Lightweight VLM(경량 시각 언어 모델)On-device AI(온디바이스 AI)

코드 예제

python

o = Encoder-Decoder_theta([Proj_omega(f_phi(I)), Embed(t)])

이미지 인코더와 텍스트 임베딩을 결합하여 디코더로 전달하는 GoClick의 핵심 모델 추론 수식

GoClick: 자율적 GUI 상호작용을 위한 경량 요소 그라운딩 모델

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

코드 예제

GoClick: 자율적 GUI 상호작용을 위한 경량 요소 그라운딩 모델

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

코드 예제

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드