TL;DR
에이전트가 환경 정보를 효율적으로 수집하려면 탐색과 실행을 구분하고 탐색의 필요 시점을 학습으로 판단해야 한다. 본 연구는 exploration-aware 보상과 memory를 통한 외부화된 기억으로 test-time에서 정보 획득과 의사결정을 분리하고, 불확실성이 큰 상태에서만 탐색하는 전략을 학습한다. 4개 벤치마크에서 기존 방법 대비 일관된 성능 향상을 보여주고, 2B 규모 모델로도 상당한 성능을 달성한다.
왜 중요한가
에이전트가 환경 정보를 효율적으로 수집하려면 탐색과 실행을 구분하고 탐색의 필요 시점을 학습으로 판단해야 한다. 본 연구는 exploration-aware 보상과 memory를 통한 외부화된 기억으로 test-time에서 정보 획득과 의사결정을 분리하고, 불확실성이 큰 상태에서만 탐색하는 전략을 학습한다. 4개 벤치마크에서 기존 방법 대비 일관된 성능 향상을 보여주고, 2B 규모 모델로도 상당한 성능을 달성한다.
핵심 기여
Exploration-and-Memory Mode 도입
에이전트가 탐색 가이드(et)와 accumulative memory(mt)를 생성하는 구조화된 출력 형식을 도입하여 탐색과 의사결정을 분리한다.
Bayesian Exploratory Reward 모델
p(e_t-1, m_t-1 | s_t, success)와 같은 posterior를 근사하는 variational proxy q_phi로 탐색의 유용성을 평가하고 R_explore를 계산한다.
탐색-인지 GRPO의 2단계 학습
SFT rollback과 exploration-aware GRPO를 통해 탐색-정보 획득과 실행 간의 경사 업데이트를 안정적으로 수행한다.
Visitation-depth 기반 그룹화
κ(s_i,t)로 방문 깊이를 도입하고 G(s,ν)로 그룹화해 같은 정보단계의 트랜지션만 비교하도록 만들어 학습 안정성을 확보한다.
실험적 증거
4개 환경에서 20%~60% 수준의 성능 향상을 달성하고, 2B 규모 모델이 대다수 큰 모델을 능가하는 결과를 보인다. unseen 환경으로의 일반화도 가능하다.
추론 효율성 및 런타임 분석
학습 오버헤드는 기존 방법 대비 약 15% 증가하나, 온라인 샘플링 의존도를 줄여 전체 비용을 절감하는 방향으로 설계되었다. γ-discount를 사용해 탐색의 과도함을 억제한다.
핵심 아이디어 이해하기
출발점: 에이전트-강화학습에서 목적은 보상을 최대화하는 정책 학습이다. 기존의 test-time 탐색 접근은 탐색과 action selection을 하나의 정책으로 묶는 경우가 많아 환경의 불확실성에 따른 탐색 필요성을 구분하기 어렵다. 본 논문은 탐색과 기억의 분리된 모듈을 도입하고, Bayesian 기반의 탐색 유용성 보상(R_explore)을 학습 가능한 q_phi로 추정한다. 이를 통해 정보 획득의 가치를 평가하고, visitation-depth를 활용한 그룹화로 학습 신호를 명확히 구분한다. 실험에서는 ALFworld, WebShop, AndroidWorld, OSWorld에서 20-60%의 성능 향상과 2B-크기의 모델이 더 큰 모델 대비 우수한 성능을 달성함을 확인한다. 또한 SFT rollback과 두 단계 학습, 탐색-정보-실행 간 credit assignment의 구분이 안정적 학습과 탐색 효율성을 높임을 보인다.
방법론
전체 접근은 두 축으로 구성된다. 1) 탐색-메모리 모드: st = [g; s_t; e_{t-1}; m_{t-1}] 형태의 입력에서 탐색(et)과 기억(mt)을 함께 생성하고, 최종 실행은 at를 포함한다. 수식적으로 at = π_theta(·|st)로 정의한다. 2) 보상 모델과 학습 프로토콜: 총 보상은 R = R_task + α1 R_format + α2 R_explore로 구성되며, R_explore는 베이지안 후방의 정보가치에 의존한다. q_phi(e_{t-1}, m_{t-1}|s)를 추정하여 KL 발산을 최소화하는 방식으로 학습한다. R_explore은 Eq. (9) 및 Eq. (10)에서 정의된다. 학습은 두 단계로 수행되며, 5.1절의 rollback 학습(SFT)과 5.2절의 탐색-인지 정책 최적화로 구성된다. 롤백 데이터셋 D를 구성하고 LSFT를 최소화하여 rollback 능력을 학습한 뒤, τ1...τG를 생성하여 현 상태-방문 깊이 κ에 따라 G(s,ν)로 그룹화한다. 각 그룹에서 Ã_{i,j}를 계산하여 정책 업데이트를 진행한다. 알고리즘은 Algorithm 1에 명시된 흐름을 따른다.
관련 Figure

실험에서 시스템 프롬프트와 탐색 로그가 어떻게 구성되는지 구체적으로 보여주며, 탐색-메모리 모드의 실제 동작 흐름을 시각적으로 확인할 수 있다.
Step별 EAPO 시각화 로그의 스크린샷들(스텝 1~4)으로 시스템 프롬프트, 탐색/메모리, 최종 실행 등이 한 화면에 표시

탐색-정보-실행의 흐름이 step-wise로 어떻게 전개되는지, 탐색을 통한 정보 축적이 최종 선택에 어떻게 반영되는지 시각적으로 확인 가능하다.
Step 9까지의 시나리오에 대한 연속 시각화로 탐색 로그와 선택이 결론으로 이어지는 과정을 보여준다
주요 결과
주요 벤치마크에서 EAPO가 baselines보다 일관되게 우수한 성능을 보인다. 텍스트 기반 ALFworld, WebShop, AndroidWorld, OSWorld에서 EAPO가 20%~60%의 절대 성능 향상을 달성하며, 2B 규모 모델이 더 큰 일반/에이전트 모델을 능가하는 경우가 다수이다. 그룹 크기 G를 증가시킬수록 안정성이 증가하지만 수렴 이점은 포화되며, KL 계수 λ은 중간 값에서 가장 잘 작동하고 지나치게 큰 경우 제약이 커져 성능이 떨어진다. γ=0.9로 설정하면 탐색과 실행 간의 균형이 적절해져 탐색 효율성과 실행 성능의 트레이드오프를 잘 맞춘다. SFT 롤백 도입으로 학습 안정성이 개선되며, exploration-aware grouping이 도입되면 탐색Degree와 성능의 상승이 유지된다. OSWorld에 대해 AndroidWorld에서 학습한 모델의 일반화가 확인되었고, 추론 시간 증가도 탐색의 유의미한 증가에 국한된다. 전체 실험은 8-bit GPU 기반 인프라에서 수행되었으며 훈련 오버헤드는 기존 방법 대비 대체로 제한적이다.
관련 Figure

다양한 모델 크기에서 EAPO가 일관된 성능 향상을 보이며, 탐색의 학습 기반 개선 효과를 강조한다. 결과는 EAPO의 탐색-학습 프레임워크가 테스트 시점에서도 효과적임을 뒷받침한다.
도메인별 모델 크기(1.7B, 4B, 8B)에서 EAPO와 온라인 탐색의 성능 비교를 시각화한 그래프

EAPO가 수렴 속도와 안정성에서 우수함을 시각적으로 보여주며, 다른 방법 대비 학습 효율의 이점을 제시한다.
다양한 사이즈의 모델에서 벤치마크 수렴 곡선을 비교한 훈련 수렴 그래프

온라인 보상 대비 탐색Degree가 초기에는 더 크고 학습 과정에서 안정적으로 수렴하는 경향을 보임으로써 탐색의 필요 시점을 학습하는 효과를 시사한다.
Exploration degree를 EAPO와 온라인 보상 간에 비교하는 그래프
기술 상세
아키텍처는 탐색-메모리 모드와 보상 학습 모듈로 구성된다. s~t 입력은 [g; s_t; e_{t-1}; m_{t-1}]이며, 출력은 [e_t; m_t; a_t] 형태의 결합으로 생성된다. 보상은 R_task, R_format, R_explore의 가중합으로 구성되며, R_explore는 Eq. (9) 및 (10)에서 정의된다. R_explore의 추정은 q_phi(e, m|s)를 사용한 변분 추정으로, KL(q_phi || p) 최소화를 목표로 한다. SFT 롤백은 LSFT 손실로 학습되며, 4단계 그룹화(G(s,ν))를 통해 같은 초기 상태와 방문 깊이에서의 트랜지션을 묶어 상대 가치를 추정한다. κ(s_i) = ∑{k<t} I[s_i^k = s_i^t]로 정의되며, 그룹 내 이점은 Ã{i,j} = (R(...)-mean(R_G))/std(R_G)로 계산한다. 실험 설정은 4개 도메인(ALFWorld, WebShop, AndroidWorld, OSWorld)에서 Qwen3 또는 Qwen3-VL 기반 모델 크기로 수행되며 γ=0.9, 그룹 크기 G=16, α1=0.5, α2=1.0, KL λ=0.01, 학습률 1e-4를 기본값으로 사용한다.
실무 활용
에이전트-러닝 기반 GUI 자동화/웹 자동화 작업에 적용 가능하며, 테스트 시나리오에서 정보 획득과 의사결정 간의 분리를 통해 탐색 효율을 높인다.
- GUI 자동화 에이전트의 탐색-실행 분리 도입으로 장기 테스트 시나리오의 안정성 향상
- 웹 자동화에서 불확실한 상태에서의 정보 수집과 의사결정 개선
- 모바일 앱 자동화에서 적응적 탐색으로 빠른 환경 적응
- 대화형 에이전트의 디버깅 및 롤백 기능 강화
- 테스트-주도형 강화학습 연구에서 exploration 보상의 설계 방향 제시
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.