탐색 인지형 정책 최적화를 통한 에이전트 주도 추론 확장 학습

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

에이전트가 환경 정보를 효율적으로 수집하려면 탐색과 실행을 구분하고 탐색의 필요 시점을 학습으로 판단해야 한다. 본 연구는 exploration-aware 보상과 memory를 통한 외부화된 기억으로 test-time에서 정보 획득과 의사결정을 분리하고, 불확실성이 큰 상태에서만 탐색하는 전략을 학습한다. 4개 벤치마크에서 기존 방법 대비 일관된 성능 향상을 보여주고, 2B 규모 모델로도 상당한 성능을 달성한다.

왜 중요한가

에이전트가 환경 정보를 효율적으로 수집하려면 탐색과 실행을 구분하고 탐색의 필요 시점을 학습으로 판단해야 한다. 본 연구는 exploration-aware 보상과 memory를 통한 외부화된 기억으로 test-time에서 정보 획득과 의사결정을 분리하고, 불확실성이 큰 상태에서만 탐색하는 전략을 학습한다. 4개 벤치마크에서 기존 방법 대비 일관된 성능 향상을 보여주고, 2B 규모 모델로도 상당한 성능을 달성한다.

핵심 기여

Exploration-and-Memory Mode 도입

에이전트가 탐색 가이드(et)와 accumulative memory(mt)를 생성하는 구조화된 출력 형식을 도입하여 탐색과 의사결정을 분리한다.

Bayesian Exploratory Reward 모델

p(e_t-1, m_t-1 | s_t, success)와 같은 posterior를 근사하는 variational proxy q_phi로 탐색의 유용성을 평가하고 R_explore를 계산한다.

탐색-인지 GRPO의 2단계 학습

SFT rollback과 exploration-aware GRPO를 통해 탐색-정보 획득과 실행 간의 경사 업데이트를 안정적으로 수행한다.

Visitation-depth 기반 그룹화

κ(s_i,t)로 방문 깊이를 도입하고 G(s,ν)로 그룹화해 같은 정보단계의 트랜지션만 비교하도록 만들어 학습 안정성을 확보한다.

실험적 증거

4개 환경에서 20%~60% 수준의 성능 향상을 달성하고, 2B 규모 모델이 대다수 큰 모델을 능가하는 결과를 보인다. unseen 환경으로의 일반화도 가능하다.

추론 효율성 및 런타임 분석

학습 오버헤드는 기존 방법 대비 약 15% 증가하나, 온라인 샘플링 의존도를 줄여 전체 비용을 절감하는 방향으로 설계되었다. γ-discount를 사용해 탐색의 과도함을 억제한다.

핵심 아이디어 이해하기

출발점: 에이전트-강화학습에서 목적은 보상을 최대화하는 정책 학습이다. 기존의 test-time 탐색 접근은 탐색과 action selection을 하나의 정책으로 묶는 경우가 많아 환경의 불확실성에 따른 탐색 필요성을 구분하기 어렵다. 본 논문은 탐색과 기억의 분리된 모듈을 도입하고, Bayesian 기반의 탐색 유용성 보상(R_explore)을 학습 가능한 q_phi로 추정한다. 이를 통해 정보 획득의 가치를 평가하고, visitation-depth를 활용한 그룹화로 학습 신호를 명확히 구분한다. 실험에서는 ALFworld, WebShop, AndroidWorld, OSWorld에서 20-60%의 성능 향상과 2B-크기의 모델이 더 큰 모델 대비 우수한 성능을 달성함을 확인한다. 또한 SFT rollback과 두 단계 학습, 탐색-정보-실행 간 credit assignment의 구분이 안정적 학습과 탐색 효율성을 높임을 보인다.

방법론

전체 접근은 두 축으로 구성된다. 1) 탐색-메모리 모드: s~~t = [g; s_t; e_{t-1}; m_{t-1}] 형태의 입력에서 탐색(et)과 기억(mt)을 함께 생성하고, 최종 실행은 a~~t를 포함한다. 수식적으로 a~~t = π_theta(·|s~~t)로 정의한다. 2) 보상 모델과 학습 프로토콜: 총 보상은 R = R_task + α1 R_format + α2 R_explore로 구성되며, R_explore는 베이지안 후방의 정보가치에 의존한다. q_phi(e_{t-1}, m_{t-1}|s)를 추정하여 KL 발산을 최소화하는 방식으로 학습한다. R_explore은 Eq. (9) 및 Eq. (10)에서 정의된다. 학습은 두 단계로 수행되며, 5.1절의 rollback 학습(SFT)과 5.2절의 탐색-인지 정책 최적화로 구성된다. 롤백 데이터셋 D를 구성하고 LSFT를 최소화하여 rollback 능력을 학습한 뒤, τ1...τG를 생성하여 현 상태-방문 깊이 κ에 따라 G(s,ν)로 그룹화한다. 각 그룹에서 Ã_{i,j}를 계산하여 정책 업데이트를 진행한다. 알고리즘은 Algorithm 1에 명시된 흐름을 따른다.

주요 결과

주요 벤치마크에서 EAPO가 baselines보다 일관되게 우수한 성능을 보인다. 텍스트 기반 ALFworld, WebShop, AndroidWorld, OSWorld에서 EAPO가 20%~60%의 절대 성능 향상을 달성하며, 2B 규모 모델이 더 큰 일반/에이전트 모델을 능가하는 경우가 다수이다. 그룹 크기 G를 증가시킬수록 안정성이 증가하지만 수렴 이점은 포화되며, KL 계수 λ은 중간 값에서 가장 잘 작동하고 지나치게 큰 경우 제약이 커져 성능이 떨어진다. γ=0.9로 설정하면 탐색과 실행 간의 균형이 적절해져 탐색 효율성과 실행 성능의 트레이드오프를 잘 맞춘다. SFT 롤백 도입으로 학습 안정성이 개선되며, exploration-aware grouping이 도입되면 탐색Degree와 성능의 상승이 유지된다. OSWorld에 대해 AndroidWorld에서 학습한 모델의 일반화가 확인되었고, 추론 시간 증가도 탐색의 유의미한 증가에 국한된다. 전체 실험은 8-bit GPU 기반 인프라에서 수행되었으며 훈련 오버헤드는 기존 방법 대비 대체로 제한적이다.

기술 상세

아키텍처는 탐색-메모리 모드와 보상 학습 모듈로 구성된다. s~t 입력은 [g; s_t; e_{t-1}; m_{t-1}]이며, 출력은 [e_t; m_t; a_t] 형태의 결합으로 생성된다. 보상은 R_task, R_format, R_explore의 가중합으로 구성되며, R_explore는 Eq. (9) 및 (10)에서 정의된다. R_explore의 추정은 q_phi(e, m|s)를 사용한 변분 추정으로, KL(q_phi || p) 최소화를 목표로 한다. SFT 롤백은 LSFT 손실로 학습되며, 4단계 그룹화(G(s,ν))를 통해 같은 초기 상태와 방문 깊이에서의 트랜지션을 묶어 상대 가치를 추정한다. κ(s_i) = ∑{k<t} I[s_i^k = s_i^t]로 정의되며, 그룹 내 이점은 Ã{i,j} = (R(...)-mean(R_G))/std(R_G)로 계산한다. 실험 설정은 4개 도메인(ALFWorld, WebShop, AndroidWorld, OSWorld)에서 Qwen3 또는 Qwen3-VL 기반 모델 크기로 수행되며 γ=0.9, 그룹 크기 G=16, α1=0.5, α2=1.0, KL λ=0.01, 학습률 1e-4를 기본값으로 사용한다.

실무 활용

에이전트-러닝 기반 GUI 자동화/웹 자동화 작업에 적용 가능하며, 테스트 시나리오에서 정보 획득과 의사결정 간의 분리를 통해 탐색 효율을 높인다.

GUI 자동화 에이전트의 탐색-실행 분리 도입으로 장기 테스트 시나리오의 안정성 향상
웹 자동화에서 불확실한 상태에서의 정보 수집과 의사결정 개선
모바일 앱 자동화에서 적응적 탐색으로 빠른 환경 적응
대화형 에이전트의 디버깅 및 롤백 기능 강화
테스트-주도형 강화학습 연구에서 exploration 보상의 설계 방향 제시

코드 공개 여부: 공개

코드 저장소 보기

키워드

reinforcement learningexploration-aware policy optimizationvariational inferencememory augmentationtest-time adaptationLLM agentsGUI tasks