핵심 요약
GUI 에이전트가 복잡한 화면에서 정확하게 동작하려면 추론 능력과 클릭 지점을 찾는 Grounding 능력이 모두 필요하다. 이 논문은 추론 과정이 오히려 클릭 정확도를 떨어뜨리는 문제를 해결하고, 정답이 여러 개일 수 있는 GUI 환경에서도 안정적으로 학습하는 새로운 훈련 방식을 제시하여 오픈소스 모델의 실용성을 크게 높였다.
왜 중요한가
GUI 에이전트가 복잡한 화면에서 정확하게 동작하려면 추론 능력과 클릭 지점을 찾는 Grounding 능력이 모두 필요하다. 이 논문은 추론 과정이 오히려 클릭 정확도를 떨어뜨리는 문제를 해결하고, 정답이 여러 개일 수 있는 GUI 환경에서도 안정적으로 학습하는 새로운 훈련 방식을 제시하여 오픈소스 모델의 실용성을 크게 높였다.
핵심 기여
GUI-Libra-81K 데이터셋 구축
81,000개의 고품질 GUI 추론 데이터를 구축하고 필터링 파이프라인을 통해 정제하여 공개함. 기존 데이터셋의 짧고 노이즈가 많은 추론 과정을 개선하여 행동과 정렬된 고품질 데이터를 제공함.
Action-aware Supervised Fine-tuning (ASFT)
긴 Chain-of-Thought(CoT) 추론이 Grounding 정확도를 저하시키는 문제를 해결하기 위해 행동 및 Grounding 토큰에 더 높은 가중치를 부여하는 토큰 레벨 재가중치 기법을 도입함.
부분 검증 가능성(Partial Verifiability)을 고려한 강화학습
GUI 환경에서 여러 유효한 행동 중 하나만 정답으로 처리되는 문제를 해결하기 위해 KL Regularization의 중요성을 이론적으로 증명하고, 모호한 부정적 피드백의 영향을 줄이는 SNGS 기법을 제안함.
오프라인-온라인 성능 정렬 개선
강화학습 과정에서 오프라인 지표가 실제 온라인 작업 성공률을 더 잘 예측할 수 있도록 KL Trust Region을 설정하여 훈련 안정성과 예측 가능성을 동시에 확보함.
핵심 아이디어 이해하기
GUI 에이전트는 화면을 보고(Vision) 다음 행동을 결정(Action)해야 한다. 기존에는 '생각(CoT)하고 행동하라'는 방식을 썼는데, 긴 생각 문장이 모델의 주의력을 분산시켜 정작 중요한 클릭 좌표를 틀리게 만드는 부작용이 있었다. 이는 Transformer의 Attention 메커니즘이 긴 텍스트 시퀀스에 집중하느라 시각적 좌표 정보에 대한 가중치를 잃기 때문이다.
또한, 강화학습 시 특정 버튼을 누르는 것 외에도 뒤로 가기를 누르는 등 여러 정답이 있을 수 있는데, 데이터셋에 있는 단 하나의 정답과 다르면 무조건 벌점을 주는 방식은 Gradient Descent 과정에서 잘못된 신호를 주어 학습을 불안정하게 만든다. 이를 부분 검증 가능성(Partial Verifiability) 문제라고 정의한다.
GUI-Libra는 행동과 좌표 토큰에 더 높은 가중치를 주어 '생각'이 '행동'을 방해하지 않게 하고, 정답 후보가 모호할 때는 벌점을 줄여주는 SNGS 기법을 통해 모델이 데이터셋의 정답에만 과적합되지 않고 유연하면서도 정확한 정책을 유지하게 한다.
방법론
ASFT(Action-aware SFT)는 손실 함수 계산 시 추론, 행동, Grounding 토큰별로 가중치를 다르게 적용한다. [추론(), 행동(), Grounding() 토큰의 로그 확률을 입력으로] -> [각 토큰 타입별 가중치 를 곱해 합산한 뒤 토큰 수로 나누는 연산을 수행해] -> [최종 손실 값을 얻고] -> [이 값을 최소화하여 모델이 추론 능력을 유지하면서도 정확한 좌표 예측을 우선시하도록 학습한다].
Conservative RL은 GRPO 알고리즘을 기반으로 하며 KL Regularization을 유지한다. [현재 정책과 참조 정책 사이의 KL 발산 값을 입력으로] -> [손실 함수에 계수를 곱한 페널티를 더하는 연산을 수행해] -> [정책의 급격한 변화를 억제하는 결과를 얻고] -> [이를 통해 모델이 정답 데이터의 분포에서 너무 멀어지지 않도록 제어한다].
SNGS(Success-adaptive Negative Gradient Scaling)는 부정적 업데이트의 강도를 조절한다. [그룹 내 정답 확률 를 입력으로] -> [ 식을 통해 스케일링 인자를 계산해] -> [음수 어드밴티지에 곱하는 연산을 수행하여] -> [정답이 확실하지 않은 상황에서의 과도한 벌칙을 방지하고 훈련을 안정화한다].
주요 결과
AndroidWorld 벤치마크에서 GUI-Libra-4B는 베이스 모델 대비 +15.6% 향상된 42.6%의 성공률을 기록했다. 이는 파라미터 수가 훨씬 많은 Qwen2.5-VL-72B(32.2%)를 능가하는 수치이다. WebArena-Lite-v2에서도 GUI-Libra-8B가 26.6%를 달성하며 베이스 모델(15.3%) 대비 비약적인 성능 향상을 보였다.
Ablation Study를 통해 KL Regularization의 효과를 검증한 결과, 해당 기법을 적용했을 때 오프라인 지표와 실제 온라인 성능 사이의 Pearson 상관계수가 0.63에서 0.89로 상승했다. 이는 훈련 중 오프라인 성능이 좋아지면 실제 서비스 성능도 비례해서 좋아짐을 의미한다.
또한, SNGS 기법을 적용했을 때 AndroidWorld에서 성공률이 39.1%에서 42.6%로 추가 상승하여, 모호한 부정적 피드백을 조절하는 것이 실제 에이전트의 일반화 성능에 기여함을 입증했다.
기술 상세
GUI-Libra는 단일 VLM이 관찰값에서 행동으로 직접 매핑하는 Native GUI Agent 구조를 채택하고 Qwen2.5-VL 및 Qwen3-VL을 백본으로 사용한다. 연구의 핵심 차별점은 GUI 환경의 특성인 'Partial Verifiability'를 수학적으로 정의하고 이를 해결하기 위한 이론적 기반을 마련했다는 점이다.
학습은 2단계로 구성된다. 1단계 ASFT에서는 81K 규모의 정제된 데이터를 사용하며, 좌표 토큰()에 가장 높은 가중치를 부여하여 CoT로 인한 Grounding 성능 저하를 방지한다. 2단계 RL에서는 GRPO를 사용하되, KL Trust Region을 설정하여 정책 붕괴를 막고 SNGS를 통해 보상 모호성 문제를 완화한다.
구현 세부사항으로 SFT 시 학습률 , 배치 사이즈 256을 사용하며, RL 단계에서는 학습률 , 그룹 사이즈 8, KL 계수 0.001~0.005를 적용한다. 모든 훈련 데이터는 기존 오픈소스 리소스에서 파생되어 데이터 효율성이 매우 높다.
한계점
현재 연구는 기존 오픈소스 데이터셋 학습에 집중하고 있으며, 실제 환경과의 실시간 상호작용을 통한 완전한 온라인 RL 확장은 아직 탐구되지 않았다. 또한 학습 데이터의 약 85%가 모바일 도메인에 치중되어 있어 웹 도메인 데이터의 확충이 향후 과제로 남아있다.
실무 활용
모바일 및 웹 환경에서 복잡한 다단계 작업을 수행하는 자율 에이전트 개발에 즉시 활용 가능하다. 특히 고가의 온라인 데이터 수집 없이도 기존 오픈소스 데이터를 활용해 고성능 에이전트를 구축할 수 있는 효율적인 파이프라인을 제공한다.
- 웹사이트 자동 예약 및 결제 시스템 에이전트
- 모바일 앱 UI 자동화 테스트 및 버그 리포팅 도구
- 시각 장애인을 위한 스마트폰 조작 보조 AI 비서
- 엔터프라이즈 소프트웨어(ERP, CRM) 워크플로 자동화 에이전트
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.