Action Guidance를 활용한 에이전트 정책 학습

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

LLM 기반의 에이전트는 탐색 한계로 인해 보상 신호를 얻지 못하는 out-region 과제에서 학습이 정체된다. 본 연구는 풍부한 action 데이터를 plan-style 가이드로 활용해 base 정책의 탐색 경계를 확장하고, SFT 의존 없이도 효과적인 학습 신호를 확보하는 새로운 post-training 전략을 제시한다. 이를 통해 harder한 벤치마크에서도 zero RL 대비 성능이 개선되며, SFT+RL 파이프라인과 경쟁할 만한 성능을 보인다.

왜 중요한가

LLM 기반의 에이전트는 탐색 한계로 인해 보상 신호를 얻지 못하는 out-region 과제에서 학습이 정체된다. 본 연구는 풍부한 action 데이터를 plan-style 가이드로 활용해 base 정책의 탐색 경계를 확장하고, SFT 의존 없이도 효과적인 학습 신호를 확보하는 새로운 post-training 전략을 제시한다. 이를 통해 harder한 벤치마크에서도 zero RL 대비 성능이 개선되며, SFT+RL 파이프라인과 경쟁할 만한 성능을 보인다.

핵심 기여

Action data를 계획(plan-style) 가이드로 활용

액션 시퀀스를 reference plan g = (˜α1, ..., ˜αL)로 간주하고 정책을 πθ(·|s, g)로 조건화한다. 바리어 구간에서의 상태 방문 mass를 증가시키고 out-region 탐색을 촉진한다.

Minimal Intervention 원칙 도입

가이드의 강도를 증가시키면 off-policy 위험이 커지므로, 각 작업에서 보상 회복을 달성하는 최소 수준의 가이드를 선택한다.

Mixed-Policy Optimization으로 신호 내부화

guided 롤아웃의 정보를 unguided 정책으로 당겨 테스트 시점의 unguided 능력으로 통합한다.

다양한 도메인에서의 일관된 개선

GAIA, WebWalkerQA, XBench, BC-ZH 등에서 zero RL 대비 일관된 성능 향상을 보이고, SFT+RL 파이프라인과 비교해도 경쟁력을 보인다.

Action-noise 로버스트니스 확인

액션 노이즈가 10%일 때 성능 유지, 20%일 때 성능이 하락하는 경향을 확인했다.

핵심 아이디어 이해하기

출발점: agentic RL은 base 모델의 in-region에서만 학습 신호를 얻고, out-region으로 확장하면 신호가 사라진다. 해결책: action 데이터를 plan-style 가이드로 활용해 barrier를 넘는 상태 방문을 촉진하고, 가이던스의 강도를 점진적으로 조절하는 최소 개입 원칙으로 off-policy 위험을 관리한다. 결과적으로 guided 롤아웃은 unguided 정책에 내부화되어 inference 시점의 unguided 성능으로 전환된다.

방법론

정책은 πθ이며 POMDP 설정에서 학습한다. Ψ(s) := supπ Pπ(Y=1|s)로, 상태 s에서 남은 성공 확률의 상한을 정의하고 Mπt := Eπ[Ψ(st)]로 남은 성공 잠재력을 추정한다. 바리어는 임계 구간에서 Mass Collapse로 표현되고, κ̄πt := Mπt+1/Mπt로 한걸음 도달 가능성을 추적한다. 바리어(barrier)가 발생하면 Y(τ)=0로 수렴해 학습이 정지한다. Action guidance는 g = (˜α1, ..., ˜αL)로 표현되며, barrier 구간에서의 효용 Bk := log(Mπθ(·|s,gk)/Mπθ(·|s))로 정의된 바리어-회복 이득을 측정한다. Prefix-level Pass@K로 바리어를 넘기는지 평가하고, ΔLogit := logitπ(·|s,g) − logitπ(·|s)로 guided와 unguided 정책 간의 차이를 측정한다. Finding 1에 따라 gk를 점진적으로 삽입해 바리어를 넘도록 한다.

주요 결과

주요 벤치마크에서 ACTGUIDE-RL은 zero RL 대비 향상을 보여준다. GAIA에서 +10.68 pp, WebWalkerQA에서 +27.79 pp, XBench에서 +19.00 pp, BC-ZH에서 +5.15 pp의 개선을 확인했다. Qwen3-4B-Instruct 기반에서 바리어를 넘어서는 광범위한 개선이 관찰되었고, SFT+RL 파이프라인과 비교해도 초기 무cold-start 상황에서도 경쟁력을 보였다. SFT+RL 대비 ACTGUIDE-RL은 일관된 탐색 강화와 out-of-domain 일반화의 개선을 보여준다. Ablation에서 adaptive/fallback guider를 제거하면 각각 성능이 감소했고, mixed-policy optimization의 제거 역시 성능 저하를 야기했다. 또한 10% 노이즈에서는 비교적 안정적이었으나 20% 노이즈에서는 성능이 감소했다. 평가 시 interaction budget이 증가할수록 성능 향상이 지속된다.

기술 상세

전체 아키텍처는 ACTGUIDE-RL 프레임워크로, Action Guidance를 이용해 바리어를 넘도록 하는 guided 롤아웃과 unguided 롤아웃의 혼합 학습이다. 알고리즘 1은 adaptive minimal-intervention training 루프를 제시하며, 각 샘플에서 k를 이진 탐색으로 선택해 최소한의 가이드를 적용한다. r_mix는 tm-단위 중요도 비율로, guided와 unguided 롤아웃의 확률분포 차이를 보정하고, KL(divergence) 제약을 통해 unguided 목표에 credit을 되돌려준다. 바리어의 효과(Bk)와 off-policy 위험(Rk)의 Trade-off를 통해 minimal intervention의 최적화를 달성한다. 실험은 2k RL 데이터로 구성된 search-agent 설정에서 수행되었고, MA- 또는 Tongyi-DeepResearch 계열의 action 데이터를 reference plan으로 사용했다.

한계점

본 연구는 주로 search-agent 설정에서의 실험에 한정되며, GUI/CLI/임베디드 환경 등 비검색 에이전트에 대한 일반화는 추가 연구가 필요하다. action 데이터의 수집·정제에 대한 체계적 가이드가 아직 부족하고, 노이즈에 대한 민감도와 도메인 간 차이를 더 넓게 검증할 필요가 있다.

실무 활용

Action Guidance를 사용한 후처리 방식으로, 대규모 supervised 데이터 없이도 agentic RL의 탐색 및 상호작용 능력을 향상시킨다.

웹 자동화 기반 LLM 에이전트의 탐색 효율 향상
다중 단계 퀘스트 수행 및 도구 사용 에이전트의 성능 개선
제로샷/초기 학습에서의 학습 신호 보강
다양한 도메인에서의 일반화 향상

코드 공개 여부: 공개

코드 저장소 보기

키워드

agentic RLaction guidancereachability barriermixed-policy optimizationminimal interventionSFT+RLout-of-domain explorationGAIAWebWalkerQA