TL;DR
LLM 기반의 에이전트는 탐색 한계로 인해 보상 신호를 얻지 못하는 out-region 과제에서 학습이 정체된다. 본 연구는 풍부한 action 데이터를 plan-style 가이드로 활용해 base 정책의 탐색 경계를 확장하고, SFT 의존 없이도 효과적인 학습 신호를 확보하는 새로운 post-training 전략을 제시한다. 이를 통해 harder한 벤치마크에서도 zero RL 대비 성능이 개선되며, SFT+RL 파이프라인과 경쟁할 만한 성능을 보인다.
왜 중요한가
LLM 기반의 에이전트는 탐색 한계로 인해 보상 신호를 얻지 못하는 out-region 과제에서 학습이 정체된다. 본 연구는 풍부한 action 데이터를 plan-style 가이드로 활용해 base 정책의 탐색 경계를 확장하고, SFT 의존 없이도 효과적인 학습 신호를 확보하는 새로운 post-training 전략을 제시한다. 이를 통해 harder한 벤치마크에서도 zero RL 대비 성능이 개선되며, SFT+RL 파이프라인과 경쟁할 만한 성능을 보인다.
핵심 기여
Action data를 계획(plan-style) 가이드로 활용
액션 시퀀스를 reference plan g = (˜α1, ..., ˜αL)로 간주하고 정책을 πθ(·|s, g)로 조건화한다. 바리어 구간에서의 상태 방문 mass를 증가시키고 out-region 탐색을 촉진한다.
Minimal Intervention 원칙 도입
가이드의 강도를 증가시키면 off-policy 위험이 커지므로, 각 작업에서 보상 회복을 달성하는 최소 수준의 가이드를 선택한다.
Mixed-Policy Optimization으로 신호 내부화
guided 롤아웃의 정보를 unguided 정책으로 당겨 테스트 시점의 unguided 능력으로 통합한다.
다양한 도메인에서의 일관된 개선
GAIA, WebWalkerQA, XBench, BC-ZH 등에서 zero RL 대비 일관된 성능 향상을 보이고, SFT+RL 파이프라인과 비교해도 경쟁력을 보인다.
Action-noise 로버스트니스 확인
액션 노이즈가 10%일 때 성능 유지, 20%일 때 성능이 하락하는 경향을 확인했다.
핵심 아이디어 이해하기
출발점: agentic RL은 base 모델의 in-region에서만 학습 신호를 얻고, out-region으로 확장하면 신호가 사라진다. 해결책: action 데이터를 plan-style 가이드로 활용해 barrier를 넘는 상태 방문을 촉진하고, 가이던스의 강도를 점진적으로 조절하는 최소 개입 원칙으로 off-policy 위험을 관리한다. 결과적으로 guided 롤아웃은 unguided 정책에 내부화되어 inference 시점의 unguided 성능으로 전환된다.
방법론
정책은 πθ이며 POMDP 설정에서 학습한다. Ψ(s) := supπ Pπ(Y=1|s)로, 상태 s에서 남은 성공 확률의 상한을 정의하고 Mπt := Eπ[Ψ(st)]로 남은 성공 잠재력을 추정한다. 바리어는 임계 구간에서 Mass Collapse로 표현되고, κ̄πt := Mπt+1/Mπt로 한걸음 도달 가능성을 추적한다. 바리어(barrier)가 발생하면 Y(τ)=0로 수렴해 학습이 정지한다. Action guidance는 g = (˜α1, ..., ˜αL)로 표현되며, barrier 구간에서의 효용 Bk := log(Mπθ(·|s,gk)/Mπθ(·|s))로 정의된 바리어-회복 이득을 측정한다. Prefix-level Pass@K로 바리어를 넘기는지 평가하고, ΔLogit := logitπ(·|s,g) − logitπ(·|s)로 guided와 unguided 정책 간의 차이를 측정한다. Finding 1에 따라 gk를 점진적으로 삽입해 바리어를 넘도록 한다.
관련 Figure

프레임워크의 핵심 아이디어인 바리어를 넘는 탐색과 mixed 롤아웃의 상호작용을 직관적으로 보여주며, methodology의 시각화를 보강한다.
ACTGUIDE-RL 프레임워크의 전체 구조를 보여주는 도해. In-Region과 Out-Region 태스크 구분, Action Guidance의 흐름, 가이드의 적용 포지션을 시각화한다.

Finding 1의 실험 관찰과 연결되어, 가이던스가 바리어를 어떻게 넘기는지 시각적으로 확인할 수 있다.
Barrier-Cross를 포함한 Guided vs Unguided 롤아웃의 차이를 나타내는 도식

가이드 수준(k)의 증가에 따른 분포 이동과 off-policy 위험의 증가 추이를 시각화한다.
Guidance의 분포 시프트를 가이드 수준에 따라 비교한 그래프
주요 결과
주요 벤치마크에서 ACTGUIDE-RL은 zero RL 대비 향상을 보여준다. GAIA에서 +10.68 pp, WebWalkerQA에서 +27.79 pp, XBench에서 +19.00 pp, BC-ZH에서 +5.15 pp의 개선을 확인했다. Qwen3-4B-Instruct 기반에서 바리어를 넘어서는 광범위한 개선이 관찰되었고, SFT+RL 파이프라인과 비교해도 초기 무cold-start 상황에서도 경쟁력을 보였다. SFT+RL 대비 ACTGUIDE-RL은 일관된 탐색 강화와 out-of-domain 일반화의 개선을 보여준다. Ablation에서 adaptive/fallback guider를 제거하면 각각 성능이 감소했고, mixed-policy optimization의 제거 역시 성능 저하를 야기했다. 또한 10% 노이즈에서는 비교적 안정적이었으나 20% 노이즈에서는 성능이 감소했다. 평가 시 interaction budget이 증가할수록 성능 향상이 지속된다.
관련 Figure

정책 가이드가 도입될 때 토큰 레벨 로그잇 변화와 바리어가 넘겨지는 지점을 구체적으로 보여준다.
Mean Shift와 Prefix-level Reachability를 보여주는 그래프

Action guidance가 더 많은 샘플에서 학습 신호를 제공하도록 돕는다는 실험적 근거를 시각화한다.
training dynamics에서 effective learning signal 비율의 변화 추세

보다 많은 상호작용 턴수가 학습에 기여하는지 평가하는 지표를 보여준다.
평균 턴 수와 응답 길이의 변화 트렌드

adaptive 가이드가 가장 효과적으로 작동하는지 비교한다.
가이드 강도를 비교한 바 그래프
기술 상세
전체 아키텍처는 ACTGUIDE-RL 프레임워크로, Action Guidance를 이용해 바리어를 넘도록 하는 guided 롤아웃과 unguided 롤아웃의 혼합 학습이다. 알고리즘 1은 adaptive minimal-intervention training 루프를 제시하며, 각 샘플에서 k를 이진 탐색으로 선택해 최소한의 가이드를 적용한다. r_mix는 tm-단위 중요도 비율로, guided와 unguided 롤아웃의 확률분포 차이를 보정하고, KL(divergence) 제약을 통해 unguided 목표에 credit을 되돌려준다. 바리어의 효과(Bk)와 off-policy 위험(Rk)의 Trade-off를 통해 minimal intervention의 최적화를 달성한다. 실험은 2k RL 데이터로 구성된 search-agent 설정에서 수행되었고, MA- 또는 Tongyi-DeepResearch 계열의 action 데이터를 reference plan으로 사용했다.
한계점
본 연구는 주로 search-agent 설정에서의 실험에 한정되며, GUI/CLI/임베디드 환경 등 비검색 에이전트에 대한 일반화는 추가 연구가 필요하다. action 데이터의 수집·정제에 대한 체계적 가이드가 아직 부족하고, 노이즈에 대한 민감도와 도메인 간 차이를 더 넓게 검증할 필요가 있다.
실무 활용
Action Guidance를 사용한 후처리 방식으로, 대규모 supervised 데이터 없이도 agentic RL의 탐색 및 상호작용 능력을 향상시킨다.
- 웹 자동화 기반 LLM 에이전트의 탐색 효율 향상
- 다중 단계 퀘스트 수행 및 도구 사용 에이전트의 성능 개선
- 제로샷/초기 학습에서의 학습 신호 보강
- 다양한 도메인에서의 일반화 향상
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.