핵심 요약
기존 AI 에이전트는 현재 화면만 보고 즉각 반응하는 방식이라 복잡한 다단계 작업을 끝까지 완수하지 못하는 경우가 많다. 이 논문은 에이전트가 실행 전 미래의 여러 단계를 미리 예측하고 계획을 세우도록 학습시켜, 마치 사람처럼 앞날을 내다보며 도구를 조작하게 만든다. 이를 통해 복잡한 컴퓨터 조작이나 도구 활용 작업에서 훨씬 더 안정적이고 정확한 성능을 보여준다.
왜 중요한가
기존 AI 에이전트는 현재 화면만 보고 즉각 반응하는 방식이라 복잡한 다단계 작업을 끝까지 완수하지 못하는 경우가 많다. 이 논문은 에이전트가 실행 전 미래의 여러 단계를 미리 예측하고 계획을 세우도록 학습시켜, 마치 사람처럼 앞날을 내다보며 도구를 조작하게 만든다. 이를 통해 복잡한 컴퓨터 조작이나 도구 활용 작업에서 훨씬 더 안정적이고 정확한 성능을 보여준다.
핵심 기여
TraceR1 프레임워크
미래의 행동 궤적을 미리 예측하는 anticipatory reasoning과 실제 실행 피드백을 결합한 2단계 Reinforcement Learning 프레임워크를 제안했다.
궤적 수준 강화학습(Stage 1)
전체 행동 시퀀스의 일관성을 평가하는 보상을 통해 에이전트가 여러 단계 앞을 내다보며 계획을 세우도록 유도했다.
실행 기반 미세 조정(Stage 2)
도구 실행 결과(좌표 정확도, 정답 여부 등)를 보상으로 활용하여 각 단계의 실행 가능성과 정밀도를 개선했다.
범용적 성능 입증
OSWorld, AndroidWorld, GAIA 등 7개 벤치마크에서 기존 오픈소스 모델을 압도하고 유료 모델 수준의 성능을 달성했다.
핵심 아이디어 이해하기
기존 에이전트는 Transformer의 Next-token prediction 방식에 의존하여 현재 상태에서 가장 확률이 높은 다음 행동 하나만 선택한다. 이는 체스 선수가 다음 한 수만 보고 두는 것과 같아서, 여러 단계가 얽힌 복잡한 작업에서는 초반의 작은 실수가 뒤로 갈수록 눈덩이처럼 불어나 결국 목표 달성에 실패하게 만든다.
TraceR1은 실행 전 미래의 궤적(Trajectory)을 미리 시뮬레이션하는 능력을 학습시킨다. Stage 1에서는 단순히 다음 행동이 맞는지 보는 것이 아니라, 예측한 전체 경로가 목표와 일치하는지를 보상으로 주어 에이전트가 미래의 결과를 고려해 현재의 결정을 내리게 한다.
여기에 실제 환경과의 상호작용을 더한다. Stage 2에서는 예측한 행동이 실제 GUI 환경에서 클릭 가능한 좌표인지, 도구가 올바른 값을 반환하는지를 확인하는 Grounded feedback을 통해 계획의 현실성을 확보한다. 결과적으로 에이전트는 멀리 보면서도 발밑을 살피는 능력을 갖추게 된다.
방법론
TraceR1은 두 단계의 GRPO(Group-relative Policy Optimization) 기반 강화학습으로 구성된다. 에이전트는 현재 관찰값 와 과거 이력 을 입력받아 미래 행동 궤적 를 예측한다.
Stage 1(Anticipatory Trajectory Optimization)은 예측 궤적과 정답 궤적 간의 정렬(Alignment)을 최적화한다. 보상 함수 를 계산할 때, 각 단계의 행동 타입 일치도 에서 반복 행동 패널티 를 뺀 값을 사용한다. [예측 시퀀스와 정답 시퀀스를 입력으로] → [단계별 일치도에 시간 할인율 를 적용해 합산] → [하나의 스칼라 보상값 산출] → [전체 계획의 일관성을 의미한다].
Stage 2(Grounded RL Fine-tuning)는 실제 도구 에이전트의 실행 피드백을 활용한다. GUI 작업에서는 클릭 좌표의 정확도를, 도구 활용 작업에서는 최종 답변의 정답 여부를 이진 보상(0 또는 1)으로 부여한다. [예측된 행동과 실제 도구 실행 결과를 입력으로] → [정답과의 일치 여부를 판별해] → [0 또는 1의 보상을 생성하고] → [각 단계의 실행 정확도를 높이는 지표로 사용한다].
주요 결과
OSWorld-Verified 벤치마크에서 UI-TARS-1.5-7B 기반 모델은 성공률을 27.4%에서 30.9%로, Qwen3-VL-32B 기반 모델은 35.6%에서 41.2%로 향상시켰다. 이는 유료 모델인 GPT-4.1 기반 시스템(43.2%)에 근접한 수치이다.
AndroidWorld에서는 64.8%의 성공률을 기록하며 기존 오픈소스 SOTA인 Qwen3-VL-32B(61.4%)를 능가했다. 특히 장기 계획이 필요한 작업에서 안정적인 성능을 보였다.
GAIA와 GTA 등 일반 도구 활용 벤치마크에서도 성능 향상이 뚜렷했다. GAIA Level 3에서 24.4%의 정확도를 기록하며 Qwen3-VL-8B(16.3%) 대비 큰 폭의 개선을 달성했으며, 이는 에이전트의 추론 일관성이 강화되었음을 증명한다.
실무 활용
복잡한 웹 서핑, 모바일 앱 조작, 다단계 데이터 분석 등 긴 호흡의 작업이 필요한 AI 에이전트 개발에 즉시 적용 가능하다. 특히 실행 전 계획을 검증해야 하는 안전성이 중요한 환경에서 유용하다.
- 복잡한 예약 시스템(항공권, 호텔 등) 자동화 에이전트
- 여러 앱을 넘나드는 워크플로우 자동화(이메일 확인 후 일정 등록 및 답장)
- 다단계 추론이 필요한 기술 지원 챗봇
- GUI 기반 소프트웨어 테스트 자동화 도구
기술 상세
TraceR1은 Qwen3-VL-8B/32B-Thinking 모델을 백본으로 사용하며, EasyR1 프레임워크를 통해 학습된다. 아키텍처는 시각적 관찰값과 텍스트 명령을 동시에 처리하는 멀티모달 구조를 유지한다.
핵심 알고리즘은 GRPO를 활용한 궤적 정렬이다. 기존의 SFT(Supervised Fine-tuning)가 Teacher forcing으로 인해 전역적 일관성을 놓치는 문제를 해결하기 위해, 샘플링된 여러 궤적 중 정답과 가장 유사한 궤적에 높은 이득(Advantage)을 주는 방식을 채택했다.
보상 설계에서 Position Penalty 를 도입하여 예측된 행동이 정답 시퀀스의 올바른 순서에 위치하도록 강제한다. 또한 3회 연속 동일 행동 시 반복 패널티를 부여해 에이전트가 루프에 빠지는 현상을 방지했다.
추론 시에는 Plan-Act Loop 방식을 사용한다. 매 단계마다 미래 궤적을 전체 예측하지만, 실제로는 첫 번째 행동만 실행하고 환경의 피드백을 받아 다시 전체 계획을 갱신(Re-planning)하는 전략을 취한다.
한계점
현재 접근 방식은 단기적인 궤적 업데이트에 국한되어 있어, 아주 긴 시간 범위의 작업 구조 자체를 재구성하거나 기억(Memory) 및 내부 상태를 근본적으로 수정하는 데는 한계가 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료