왜 중요한가
복잡한 웹 탐색처럼 단계가 많은 작업에서 AI 에이전트가 길을 잃는 문제를 해결하기 위해 작업을 작은 중간 목표로 나누는 방식을 제안한다. 이를 통해 Gemma3-12B와 같은 오픈 모델이 GPT-4o와 같은 거대 상용 모델보다 더 높은 성능을 낼 수 있음을 증명하여 효율적인 에이전트 학습의 새로운 방향을 제시한다.
핵심 기여
자동 실패 분석기(Automated Failure Analyzer) 도입
기존 웹 에이전트의 실패 패턴을 체계적으로 분류하여 '중간 정체(Get Stuck Midway)'가 가장 큰 병목 현상임을 데이터로 입증했다.
서브골 기반 추론 시간 계획(Inference-Time Planning)
추론 시점에 고수준 목표를 구조화된 서브골로 분해하고, 현재 진행 상황을 스스로 체크하며 계획을 수정하는 동적 마일스톤 메커니즘을 통합했다.
MiRA(Milestoning your RL Enhanced Agent) 프레임워크
희소한 보상 문제를 해결하기 위해 서브골 달성 시마다 밀도 높은 보상을 제공하는 오프라인 강화학습 파이프라인을 구축했다.
잠재적 비평가(Potential Critic)를 통한 보상 형성
서브골 완료 상태를 연속적인 진행 점수로 변환하여 에이전트가 최종 목표까지의 '거리'를 학습할 수 있게 하는 새로운 비평가 모델을 제안했다.
핵심 아이디어 이해하기
기존의 LLM 에이전트는 웹 탐색과 같이 수십 단계가 필요한 긴 작업(Long-horizon)에서 최종 성공/실패라는 희소한 보상(Sparse Reward)에만 의존한다. 이는 강화학습의 Credit Assignment 문제를 야기하며, 에이전트가 중간에 루프에 빠지거나 엉뚱한 방향으로 가더라도 이를 교정할 신호가 부족해 결국 실패로 이어진다.
이 논문은 복잡한 목표를 4개 정도의 명시적인 서브골(Subgoal)로 나누고, 각 서브골을 달성할 때마다 보상을 주는 방식을 취한다. 이는 마치 등산객이 정상만 바라보고 걷는 대신 중간 대피소들을 이정표 삼아 현재 위치를 확인하며 나아가는 것과 같다. 특히 추론 시에는 '내가 무엇을 달성했는가?', '현재 목표는 무엇인가?'를 스스로 묻는 자기 성찰(Self-reflection) 과정을 거친다.
학습 단계에서는 '잠재적 비평가(Potential Critic)'가 서브골 간의 간극을 선형 보간(Linear Interpolation)하여 에이전트에게 끊임없는 진행 신호를 보낸다. 이를 통해 에이전트는 단순히 정답을 맞히는 법이 아니라, 목표를 향해 착실히 나아가는 '과정'의 가치를 학습하게 된다.
방법론
전체 프레임워크는 추론 시간의 동적 마일스톤(SGO)과 학습 단계의 보상 형성(MiRA)으로 구성된다. 먼저 Gemini 2.5 Pro를 교사 모델로 사용하여 사용자 의도를 4개의 구체적인 서브골로 분해하는 데이터셋을 생성한다.
MiRA 학습 과정에서는 두 종류의 비평가(Critic)를 사용한다. 최종 성공 여부를 예측하는 가치 비평가 와 서브골 기반의 진행도를 예측하는 잠재적 비평가 이다. 는 성공한 궤적에서 서브골 달성 지점 사이를 선형 보간하여 0에서 1 사이의 연속적인 값을 출력하도록 학습된다.
보상 형성(Reward Shaping)은 공식을 따른다. [현재 상태의 잠재력 와 다음 상태의 잠재력 의 차이]를 계산하여 양수값이 나오면 에이전트가 목표에 가까워졌음을 의미하는 보상을 즉각 제공한다.
정책 업데이트는 MSE 기반의 로그 확률 회귀(Log-probability Regression)를 사용한다. [에이전트의 행동 로그 확률 와 참조 모델의 로그 확률 차이]에서 [계산된 Advantage 값 ]를 뺀 결과의 제곱을 최소화한다. 이는 PPO와 같은 기존 방식보다 오프라인 데이터 활용 시 수치적 안정성이 높다.
주요 결과
WebArena-Lite 벤치마크에서 Gemma3-12B 모델에 MiRA를 적용한 결과, 성공률(SR)이 기존 6.4%에서 43.0%로 비약적으로 상승했다. 이는 기존 오픈 소스 SOTA인 WebRL(38.8%)뿐만 아니라 GPT-4o(13.9%)와 GPT-4-Turbo(17.6%)의 성능을 크게 상회하는 수치이다.
상용 모델인 Gemini 2.5 Pro에 추론 시간 계획(SGO)을 적용했을 때도 성공률이 23.0%에서 32.1%로 약 9%p 향상되었다. 특히 실패 분석 결과, 에이전트가 중간에 멈추는 'Stuck Midway' 오류가 48.4%에서 39.9%로 유의미하게 감소했다.
Ablation Study를 통해 잠재적 비평가(Potential Critic)가 없을 경우 성능이 35% 수준에서 정체됨을 확인했다. 또한 1단계 TD 오차와 몬테카를로 리턴을 섞는 이중 로버스트(Doubly-robust) Advantage 추정이 초기 학습 안정성에 결정적인 역할을 함이 입증되었다.
실무 활용
복잡한 웹 워크플로우를 자동화해야 하는 기업용 에이전트 개발에 즉시 적용 가능하다. 특히 보상이 희소한 환경에서 오픈 소스 모델의 성능을 극대화하려는 엔지니어들에게 유용한 학습 프레임워크를 제공한다.
- 전자상거래 사이트에서 여러 조건을 필터링하여 최저가 상품을 찾아 장바구니에 담는 복잡한 구매 대행 에이전트
- GitLab이나 Jira와 같은 협업 도구에서 여러 페이지를 넘나들며 이슈를 생성하고 담당자를 지정하는 운영 자동화
- 지도 서비스에서 특정 경로 내의 맛집을 검색하고 정보를 추출하여 보고서를 작성하는 멀티스텝 정보 수집
기술 상세
아키텍처는 계층적 계획 구조를 따르며, 고수준 계획은 Gemini 2.5 Pro가 담당하고 저수준 실행은 Gemma3-12B가 수행한다. 추론 시에는 'AutoRater' 모듈이 현재 스크린샷과 액션 로그를 분석하여 서브골 체크리스트를 업데이트한다.
보상 설계에서 Potential-Based Reward Shaping(PBRS) 이론을 확장하여 목표 조건부 설정에서도 정책 불변성(Policy Invariance)이 유지됨을 수학적으로 증명했다. 이는 보상 형성이 최종 최적 정책을 왜곡하지 않음을 보장한다.
학습의 안정성을 위해 'Actor Perplexity Filtering'을 도입했다. 현재 정책의 Perplexity가 너무 높은 궤적은 학습 데이터에서 제외하여 가치 비평가의 발산을 방지한다.
Advantage 추정 시 파라미터를 사용하여 1-step TD Error와 MC Return을 혼합한다. 이는 초기 학습 시 Critic의 부정확한 예측으로 인한 편향을 MC Return의 무편향 신호로 상쇄하는 효과를 준다.
한계점
서브골 생성 자체가 휴리스틱 프롬프트에 의존하고 있어, 서브골 분해가 어려운 아주 생소한 도메인에서는 성능이 제한될 수 있다. 또한 첫 번째 마일스톤조차 도달하기 힘든 'Cold Start' 탐색 문제에 대해서는 여전히 추가적인 연구가 필요하다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.