GUI-Libra: 행동 인식 지도 학습 및 부분 검증 가능 강화학습을 통한 추론 및 행동 수행 네이티브 GUI 에이전트 학습

핵심 요약

오픈소스 네이티브 GUI 에이전트는 장기적인 내비게이션 작업(long-horizon navigation tasks)에서 여전히 폐쇄형 시스템에 비해 뒤처져 있습니다. 이러한 격차는 고품질의 행동 정렬 추론 데이터(action-aligned reasoning data) 부족과 GUI 에이전트만의 독특한 과제를 간과한 일반적인 사후 학습 파이프라인(post-training pipelines)의 직접적인 채택이라는 두 가지 한계에서 비롯됩니다. 본 연구에서는 이러한 파이프라인의 두 가지 근본적인 문제를 식별했습니다. 첫째, 사고의 사슬(Chain-of-Thought, CoT) 추론을 포함한 표준 지도 미세 조정(Supervised Fine-Tuning, SFT)은 종종 그라운딩(grounding) 능력을 저해합니다. 둘째, 단계별 강화학습(Reinforcement Learning from Verifiable Rewards, RLVR) 방식의 학습은 여러 행동이 정답일 수 있음에도 단일 시연 행동만 검증에 사용되는 부분 검증 가능성(partial verifiability) 문제에 직면합니다. 이로 인해 오프라인 단계별 지표가 온라인 작업 성공을 제대로 예측하지 못하게 됩니다. 본 논문에서는 이러한 문제를 해결하기 위해 맞춤형 학습 레시피인 GUI-Libra를 제안합니다. 먼저, 행동 정렬 추론 데이터의 희소성을 완화하기 위해 데이터 구축 및 필터링 파이프라인을 도입하고 정제된 81K GUI 추론 데이터셋을 공개합니다. 둘째, 추론과 그라운딩을 조화시키기 위해 '추론 후 행동' 데이터와 '직접 행동' 데이터를 혼합하고 토큰 가중치를 재조정하여 행동과 그라운딩을 강조하는 행동 인식 SFT(action-aware SFT)를 제안합니다. 셋째, 부분 검증 가능성 하에서 강화학습을 안정화하기 위해 RLVR에서 간과되었던 KL 정규화(KL regularization)의 중요성을 확인하고, 오프라인-온라인 예측 가능성을 개선하는 데 KL 신뢰 영역(KL trust region)이 필수적임을 보여줍니다. 나아가 신뢰할 수 없는 음의 그래디언트(negative gradients)의 가중치를 낮추는 성공 적응형 스케일링(success-adaptive scaling)을 도입합니다. 다양한 웹 및 모바일 벤치마크에서 GUI-Libra는 단계별 정확도와 엔드 투 엔드 작업 완료율을 일관되게 개선했습니다. 결과적으로 신중하게 설계된 사후 학습과 데이터 큐레이션이 값비싼 온라인 데이터 수집 없이도 강력한 작업 해결 능력을 이끌어낼 수 있음을 시사합니다.

난이도고급

핵심 기여

81K 규모의 고품질 GUI 추론 데이터셋 구축

행동과 정렬된 추론 과정을 포함하는 대규모 데이터셋을 구축하고 정교한 필터링 파이프라인을 통해 데이터의 품질과 신뢰성을 확보함.

행동 인식 지도 미세 조정(Action-aware SFT) 제안

추론 중심 데이터와 직접 행동 데이터를 혼합하고 토큰 가중치를 조정함으로써, 추론 과정이 실제 환경에서의 그라운딩 성능을 저해하지 않도록 설계함.

부분 검증 가능성을 고려한 강화학습 최적화

KL 신뢰 영역(KL Trust Region)과 성공 적응형 스케일링(Success-adaptive Scaling)을 도입하여 보상이 불완전한 GUI 환경에서도 안정적인 학습을 실현함.

방법론

GUI-Libra는 데이터 큐레이션, 행동 인식 SFT, 그리고 안정화된 강화학습의 3단계 파이프라인으로 구성됩니다. 특히 RL 단계에서는 KL 정규화를 통해 정책 변화를 제어하고, 작업 성공 여부에 따라 그래디언트 스케일을 조정하여 부분적으로만 검증 가능한 GUI 환경의 한계를 극복하는 알고리즘을 적용합니다.

주요 결과

다양한 웹 및 모바일 벤치마크 실험 결과, GUI-Libra는 기존 오픈소스 모델 대비 단계별 정확도(Step-wise Accuracy)와 최종 작업 완료율(Success Rate) 모두에서 유의미한 향상을 기록했습니다. 특히 추가적인 온라인 데이터 수집 없이도 폐쇄형 모델과의 성능 격차를 크게 줄이는 성과를 거두었습니다.

시사점

GUI 에이전트 학습 시 단순한 CoT 도입이 그라운딩 능력을 약화시킬 수 있음을 입증하고, 이를 해결하기 위한 구체적인 토큰 가중치 설계와 RL 안정화 방안을 제시합니다. 이는 고비용의 실시간 상호작용 데이터 없이도 기존 데이터를 정제하여 고성능 에이전트를 구축할 수 있는 실무적 경로를 제공합니다.

키워드

GUI 에이전트(GUI Agent)사고의 사슬(Chain-of-Thought)지도 미세 조정(SFT)강화학습(Reinforcement Learning)그라운딩(Grounding)

섹션별 상세

81K 규모의 고품질 GUI 추론 데이터셋 구축

행동과 정렬된 추론 과정을 포함하는 대규모 데이터셋을 구축하고 정교한 필터링 파이프라인을 통해 데이터의 품질과 신뢰성을 확보함.

행동 인식 지도 미세 조정(Action-aware SFT) 제안

부분 검증 가능성을 고려한 강화학습 최적화

KL 신뢰 영역(KL Trust Region)과 성공 적응형 스케일링(Success-adaptive Scaling)을 도입하여 보상이 불완전한 GUI 환경에서도 안정적인 학습을 실현함.

핵심 요약

난이도고급

핵심 기여

81K 규모의 고품질 GUI 추론 데이터셋 구축

행동과 정렬된 추론 과정을 포함하는 대규모 데이터셋을 구축하고 정교한 필터링 파이프라인을 통해 데이터의 품질과 신뢰성을 확보함.

행동 인식 지도 미세 조정(Action-aware SFT) 제안

부분 검증 가능성을 고려한 강화학습 최적화

KL 신뢰 영역(KL Trust Region)과 성공 적응형 스케일링(Success-adaptive Scaling)을 도입하여 보상이 불완전한 GUI 환경에서도 안정적인 학습을 실현함.

방법론

주요 결과

시사점

키워드

GUI 에이전트(GUI Agent)사고의 사슬(Chain-of-Thought)지도 미세 조정(SFT)강화학습(Reinforcement Learning)그라운딩(Grounding)

섹션별 상세

81K 규모의 고품질 GUI 추론 데이터셋 구축

행동과 정렬된 추론 과정을 포함하는 대규모 데이터셋을 구축하고 정교한 필터링 파이프라인을 통해 데이터의 품질과 신뢰성을 확보함.

행동 인식 지도 미세 조정(Action-aware SFT) 제안

부분 검증 가능성을 고려한 강화학습 최적화

KL 신뢰 영역(KL Trust Region)과 성공 적응형 스케일링(Success-adaptive Scaling)을 도입하여 보상이 불완전한 GUI 환경에서도 안정적인 학습을 실현함.

GUI-Libra: 행동 인식 지도 학습 및 부분 검증 가능 강화학습을 통한 추론 및 행동 수행 네이티브 GUI 에이전트 학습

핵심 요약

핵심 기여

방법론

주요 결과

시사점

키워드

섹션별 상세

81K 규모의 고품질 GUI 추론 데이터셋 구축

행동 인식 지도 미세 조정(Action-aware SFT) 제안

부분 검증 가능성을 고려한 강화학습 최적화

GUI-Libra: 행동 인식 지도 학습 및 부분 검증 가능 강화학습을 통한 추론 및 행동 수행 네이티브 GUI 에이전트 학습

핵심 요약

핵심 기여

방법론

주요 결과

시사점

키워드

섹션별 상세

81K 규모의 고품질 GUI 추론 데이터셋 구축

행동 인식 지도 미세 조정(Action-aware SFT) 제안

부분 검증 가능성을 고려한 강화학습 최적화

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글