ToolCUA: 최적의 GUI-Tool 경로 오케스트레이션을 향해 — 컴퓨터 사용 에이전트를 위한 하이브리드 액션 학습

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

멀티모달 대형 언어모델 기반의 컴퓨터 사용 에이전트가 GUI 액션과 도구 호출 사이의 시점을 정확히 판단해야 하는 문제를 다룬다. 제안하는 ToolCUA는 인터리브드 GUI-Tool 궤적 데이터를 합성하고, 도구 사용의 적합성과 경로 효율성을 동시에 최적화하는 교육 파이프라인을 통해 하이브리드 액션 공간에서의 경로 선택을 개선한다. 이로써 실제 데스크탑 자동화에서의 일반화성과 실행 효율성을 높인다.

왜 중요한가

멀티모달 대형 언어모델 기반의 컴퓨터 사용 에이전트가 GUI 액션과 도구 호출 사이의 시점을 정확히 판단해야 하는 문제를 다룬다. 제안하는 ToolCUA는 인터리브드 GUI-Tool 궤적 데이터를 합성하고, 도구 사용의 적합성과 경로 효율성을 동시에 최적화하는 교육 파이프라인을 통해 하이브리드 액션 공간에서의 경로 선택을 개선한다. 이로써 실제 데스크탑 자동화에서의 일반화성과 실행 효율성을 높인다.

핵심 기여

Interleaved GUI-Tool trajectory scaling pipeline

기존 GUI 데이터에서 도구 라이브러리를 합성하고, 도구-합성 트랙으로의 offline 확장을 통해 interleaved GUI-Tool trajectories를 대규모로 생성한다.

Tool-Bootstrapped GUI Reinforcement Finetuning (RFT)

warmup SFT와 단일 턴 RL을 활용해 중요한 GUI-Tool 전환 지점에서의 의사결정을 미세 조정한다.

Online Agentic RL with Tool-Efficient Path Reward

Rtool과 Rlength를 포함한 경로-레벨 보상을 도입해 도구 사용의 적합성과 실행 경로의 길이를 함께 최적화한다.

OSWorld-MCP에서 SOTA 성능 및 일반화

동일 규모의 baselines 대비 OSWorld-MCP에서 46.85%의 정확도 달성, GUI만 학습 대비 +3.9% 향상, Linux multi_apps 및 Windows 플랫폼으로의 일반화 확인.

핵심 아이디어 이해하기

출발점은 GUI만의 제어가 긴 경로에서 누적 오류를 만들고 도구 호출은 API 커버리지의 한계를 초래한다는 점이다. 하이브리드 경로에서의 최적 전환 시점을 학습하려면 interleaved trajectory를 ground truth로 삼아 도구 합성을 통해 실제 실행 흐름을 확립해야 한다. 이를 통해 도구 사용 여부를 선택하는 정책이 traj 수준에서 글로벌 최적성을 이룰 수 있다.

방법론

전체 문제를 Markov Decision Process(MDP)로 모델링하고 상태는 데스크탑 스크린샷과 도구 실행 결과를 포함하며, 행동 공간은 GUI Action과 Tool Invocation으로 이루어진 혼합 하이브리드 공간이다. 목표는 정책 πθ가 장기 누적 보상을 최대화하는 것. 2단계 데이터 생성: Offline Interleaved GUI-Tool Trajectory Scaling을 통해 GUI 트래젝토리를 grounded tool-only 트래젝토리로 확장하고, Next-State Grounding으로 예측 도구 실행의 상태 간 일치를 확보한다. Tool-Bootstrapped GUI RFT에서는 Dall과 Dcritical 데이터를 활용해 warmup SFT로 기초 hybrid-action 능력을 학습하고, 단일 턴 GRPO를 통해 crucial Switching 지점에서의 의사결정을 미세 조정한다. Online Agentic RL 단계에서 Tool-Efficient Path Reward를 도입하여 traj-레벨 최적화를 수행한다. Rtool은 tb 라벨이 tool-beneficial인 경우 또는 비-tool-beneficial 작업에서 도구를 사용하지 않는 의도를 보상하고, Rlength는 그룹 평균보다 짧은 traj일 때 선형 보상, 길어지면 지수적 감소 보상을 부여한다.

주요 결과

주요 벤치마크 OSWorld-MCP에서 ToolCUA-8B가 46.85%의 정확도로 SOTA를 기록하며, 동급 규모의 모델 대비 약 66% 향상(기준 28.23%). GUI-전용 설정 대비 42.9%의 정확도이며, Tool-Efficient Path Reward 도입으로 traj 길이가 짧아졌다. 다중 작업 및 플랫폼 일반화로 Linux multi_apps에서 23.9%, Windows에서 33.8% 정확도를 달성하며, Cross-task 일반화가 확인된다. 보조 실험으로 Interleaved 데이터의 중요성과 Tool-효율 보상의 효과를 확인했다. pure GUI 학습 대비 hybrid GUI-Tool 학습이 더 높은 성과를 보였다.

실무 활용

실무 적용에 적합한 하이브리드 GUI-Tool 학습 프레임워크로, 데스크톱 자동화 워크플로의 도구 호출 활용도를 높이고 긴 실행 경로에서의 효율을 개선한다.

데스크톱 오피스 자동화 워크플로의 클릭 및 입력 대신 도구 호출로 작업 속도 향상
다중 도구 체인을 사용한 대규모 업무 자동화의 신뢰성 증가
크로스 플랫폼 자동화(리눅스/윈도우)에서의 일반화 개선
공정 자동화 및 테스트 자동화 파이프라인의 GUI-툴 전환 정책 최적화

코드 공개 여부: 공개

코드 저장소 보기

키워드

GUI-Tool 하이브리드trajectory scalinggroundingOSWorld-MCPGRPORFTTool-Efficient Path RewardOSWorld