TL;DR
멀티모달 대형 언어모델 기반의 컴퓨터 사용 에이전트가 GUI 액션과 도구 호출 사이의 시점을 정확히 판단해야 하는 문제를 다룬다. 제안하는 ToolCUA는 인터리브드 GUI-Tool 궤적 데이터를 합성하고, 도구 사용의 적합성과 경로 효율성을 동시에 최적화하는 교육 파이프라인을 통해 하이브리드 액션 공간에서의 경로 선택을 개선한다. 이로써 실제 데스크탑 자동화에서의 일반화성과 실행 효율성을 높인다.
왜 중요한가
멀티모달 대형 언어모델 기반의 컴퓨터 사용 에이전트가 GUI 액션과 도구 호출 사이의 시점을 정확히 판단해야 하는 문제를 다룬다. 제안하는 ToolCUA는 인터리브드 GUI-Tool 궤적 데이터를 합성하고, 도구 사용의 적합성과 경로 효율성을 동시에 최적화하는 교육 파이프라인을 통해 하이브리드 액션 공간에서의 경로 선택을 개선한다. 이로써 실제 데스크탑 자동화에서의 일반화성과 실행 효율성을 높인다.
핵심 기여
Interleaved GUI-Tool trajectory scaling pipeline
기존 GUI 데이터에서 도구 라이브러리를 합성하고, 도구-합성 트랙으로의 offline 확장을 통해 interleaved GUI-Tool trajectories를 대규모로 생성한다.
Tool-Bootstrapped GUI Reinforcement Finetuning (RFT)
warmup SFT와 단일 턴 RL을 활용해 중요한 GUI-Tool 전환 지점에서의 의사결정을 미세 조정한다.
Online Agentic RL with Tool-Efficient Path Reward
Rtool과 Rlength를 포함한 경로-레벨 보상을 도입해 도구 사용의 적합성과 실행 경로의 길이를 함께 최적화한다.
OSWorld-MCP에서 SOTA 성능 및 일반화
동일 규모의 baselines 대비 OSWorld-MCP에서 46.85%의 정확도 달성, GUI만 학습 대비 +3.9% 향상, Linux multi_apps 및 Windows 플랫폼으로의 일반화 확인.
핵심 아이디어 이해하기
출발점은 GUI만의 제어가 긴 경로에서 누적 오류를 만들고 도구 호출은 API 커버리지의 한계를 초래한다는 점이다. 하이브리드 경로에서의 최적 전환 시점을 학습하려면 interleaved trajectory를 ground truth로 삼아 도구 합성을 통해 실제 실행 흐름을 확립해야 한다. 이를 통해 도구 사용 여부를 선택하는 정책이 traj 수준에서 글로벌 최적성을 이룰 수 있다.
관련 Figure

도구 선택과 전환 지점이 경로 효율에 중요하다는 아이디어를 직관적으로 보여준다. 논문의 핵심 아이디어를 보조하는 비주얼로 활용된다.
ToolCUA의 GUI-Tool 혼합 경로를 시각화한 인포그래픽으로, Underuse Tools와 Overuse Tools를 보여주는 일러스트
방법론
전체 문제를 Markov Decision Process(MDP)로 모델링하고 상태는 데스크탑 스크린샷과 도구 실행 결과를 포함하며, 행동 공간은 GUI Action과 Tool Invocation으로 이루어진 혼합 하이브리드 공간이다. 목표는 정책 πθ가 장기 누적 보상을 최대화하는 것. 2단계 데이터 생성: Offline Interleaved GUI-Tool Trajectory Scaling을 통해 GUI 트래젝토리를 grounded tool-only 트래젝토리로 확장하고, Next-State Grounding으로 예측 도구 실행의 상태 간 일치를 확보한다. Tool-Bootstrapped GUI RFT에서는 Dall과 Dcritical 데이터를 활용해 warmup SFT로 기초 hybrid-action 능력을 학습하고, 단일 턴 GRPO를 통해 crucial Switching 지점에서의 의사결정을 미세 조정한다. Online Agentic RL 단계에서 Tool-Efficient Path Reward를 도입하여 traj-레벨 최적화를 수행한다. Rtool은 tb 라벨이 tool-beneficial인 경우 또는 비-tool-beneficial 작업에서 도구를 사용하지 않는 의도를 보상하고, Rlength는 그룹 평균보다 짧은 traj일 때 선형 보상, 길어지면 지수적 감소 보상을 부여한다.
관련 Figure

데이터 파이프라인의 핵심 구성요소인 궤적 생성과 next-state grounding, 다중 도구의 하이브리드 경로 생성을 시각화한다.
Interleaved GUI-Tool Trajectory Generation의 예시 단계(Step 2) 스크린샷
주요 결과
주요 벤치마크 OSWorld-MCP에서 ToolCUA-8B가 46.85%의 정확도로 SOTA를 기록하며, 동급 규모의 모델 대비 약 66% 향상(기준 28.23%). GUI-전용 설정 대비 42.9%의 정확도이며, Tool-Efficient Path Reward 도입으로 traj 길이가 짧아졌다. 다중 작업 및 플랫폼 일반화로 Linux multi_apps에서 23.9%, Windows에서 33.8% 정확도를 달성하며, Cross-task 일반화가 확인된다. 보조 실험으로 Interleaved 데이터의 중요성과 Tool-효율 보상의 효과를 확인했다. pure GUI 학습 대비 hybrid GUI-Tool 학습이 더 높은 성과를 보였다.
관련 Figure

결과 섹션의 주된 증거로 사용되는 벤치마크 결과 차트로, OSWorld-MCP에서의 도메인 적합성과 성능 향상을 직접 보여준다.
OSWorld-MCP 벤치마크에서 ToolCUA와 baseline의 성능 비교 차트
실무 활용
실무 적용에 적합한 하이브리드 GUI-Tool 학습 프레임워크로, 데스크톱 자동화 워크플로의 도구 호출 활용도를 높이고 긴 실행 경로에서의 효율을 개선한다.
- 데스크톱 오피스 자동화 워크플로의 클릭 및 입력 대신 도구 호출로 작업 속도 향상
- 다중 도구 체인을 사용한 대규모 업무 자동화의 신뢰성 증가
- 크로스 플랫폼 자동화(리눅스/윈도우)에서의 일반화 개선
- 공정 자동화 및 테스트 자동화 파이프라인의 GUI-툴 전환 정책 최적화
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.