핵심 요약
멀티턴 강화학습에서 LLM 에이전트가 무의미한 행동을 반복하며 학습이 붕괴되는 'hesitation' 문제를 해결합니다. 토큰과 턴 단위에서 불확실성을 실시간으로 모니터링하여 탐색 효율을 높이고 학습 안정성을 획기적으로 개선합니다.
왜 중요한가
멀티턴 강화학습에서 LLM 에이전트가 무의미한 행동을 반복하며 학습이 붕괴되는 'hesitation' 문제를 해결합니다. 토큰과 턴 단위에서 불확실성을 실시간으로 모니터링하여 탐색 효율을 높이고 학습 안정성을 획기적으로 개선합니다.
핵심 기여
계층적 불확실성 제어 프레임워크 T2PO 제안
토큰 레벨의 사고 개입(TTI)과 턴 레벨의 동적 샘플링(TDS)을 결합하여 멀티턴 에이전트 학습의 고질적인 불안정성을 해결한다.
자가 교정 불확실성 신호 Mt 설계
Entropy와 Confidence의 한계를 보완하기 위해 두 지표를 결합하고 정규화한 새로운 신호를 설계하여 모델의 정보 획득 상태를 정확히 측정한다.
Token-level Thinking Intervention (TTI) 도입
추론 토큰 생성 중 불확실성 변화량이 임계값 이하로 떨어지면 강제로 추론을 종료하고 행동 단계로 전환시켜 불필요한 연산을 방지한다.
Turn-level Dynamical Sampling (TDS) 구현
이전 턴과 비교하여 탐색 진전이 미미한 턴을 식별하고 동적으로 재샘플링하여 무의미한 상호작용 데이터가 학습에 유입되는 것을 차단한다.
핵심 아이디어 이해하기
기존의 멀티턴 강화학습은 에이전트가 환경과 여러 번 주고받는 과정에서 보상이 희소하여 어떤 행동이 결과에 기여했는지 파악하는 Credit Assignment가 매우 어렵다. 특히 LLM 에이전트는 정답과 무관하게 긴 추론(CoT)을 생성하거나 의미 없는 행동을 반복하는 'hesitation' 상태에 빠지기 쉬우며, 이는 Gradient의 변동성을 키워 학습 붕괴를 초래한다.
T2PO는 모델 내부의 불확실성(Uncertainty)을 탐색의 나침반으로 삼는다. Softmax 출력의 확률 분포가 얼마나 퍼져 있는지(Entropy)와 가장 높은 확률값(Confidence)을 결합하여 현재 모델이 새로운 정보를 찾고 있는지, 아니면 확신 없이 방황하고 있는지를 수치화한다. 이를 통해 모델이 '충분히 생각했다'고 판단되는 지점에서 추론을 멈추게 한다.
결과적으로 학습 과정에서 발생하는 노이즈를 원천 차단함으로써 PPO나 GRPO 같은 기존 알고리즘들이 겪던 성능 급락 문제를 해결한다. 이는 단순히 학습 속도를 높이는 것을 넘어, 에이전트가 더 적은 상호작용으로도 복잡한 과업을 완수할 수 있는 최적의 경로를 찾게 만든다.
방법론
자가 교정 불확실성 신호 Mt는 정규화된 Entropy와 Confidence를 가중 합산하여 계산한다. [각 토큰의 확률 분포와 최대 확률값을 입력으로] → [식 (2), (3)에 따라 정규화 및 선형 결합을 수행해] → [0에서 1 사이의 Mt 값을 얻고] → [이 값이 높을수록 모델이 현재 생성 중인 내용에 대해 높은 확신과 낮은 혼란도를 가짐을 의미한다].
TTI(Token-level Thinking Intervention)는 슬라이딩 윈도우 방식을 사용하여 Mt의 변화량인 Δt의 평균을 모니터링한다. [최근 N개 토큰의 Δt 값들을 입력으로] → [식 (4)와 같이 평균 변화량을 계산해] → [설정된 임계값 ε보다 작아지면] → [정보 이득이 포화되었다고 판단하여 토큰을 강제 삽입하고 추론을 종료한다].
TDS(Turn-level Dynamical Sampling)는 턴 단위의 관측 신호 Φk를 생성한다. [한 턴 내 모든 토큰의 Mt 값들의 기하평균을 입력으로] → [이전 턴과의 차이인 Γk를 계산해] → [임계값 η 미만이면] → [해당 턴의 탐색 효율이 낮다고 간주하여 동일 상태에서 새로운 롤아웃을 다시 수행한다].
관련 Figure

기존 Entropy와 Confidence가 특정 영역에서 변별력을 잃는 'Blind Region'을 가짐을 보여준다. 제안된 Mt 신호는 두 지표를 결합하여 확률 분포의 미세한 변화를 더 정교하게 포착할 수 있음을 증명하며, 이것이 TTI의 근거가 된다.
Entropy, Confidence, 그리고 제안된 Mt 신호의 확률 분포에 따른 등고선 비교 시각화
주요 결과
WebShop 벤치마크에서 Qwen3-4B-RFT 기반 T2PO는 성공률 81.64%를 기록하며 기존 SOTA인 GiGPO+DAPO(74.02%)를 크게 상회했다. ALFWorld에서도 모든 세부 과업에서 가장 높은 성능을 보였으며, 특히 Pick2 과업에서 기존 대비 약 15%p 향상된 80.35%의 성공률을 달성했다.
탐색 효율성 측면에서 T2PO는 성공적인 궤적을 생성하는 데 필요한 토큰 소비량을 GiGPO 대비 약 20% 절감했다. 턴 레벨에서도 과업 완수에 필요한 상호작용 횟수를 약 16~25% 줄이면서도 더 안정적인 학습 곡선을 유지함을 확인했다.
Ablation Study 결과, TTI를 제거했을 때 성공률이 약 8%p 하락하고 TDS를 제거했을 때 약 18%p 하락하여, 턴 단위의 동적 샘플링이 학습 안정성에 더 결정적인 역할을 수행함이 입증됐다.
관련 Figure

GiGPO는 학습이 진행됨에 따라 응답 길이가 불안정하게 변동하거나 최대 길이에 도달하는 반면, T2PO는 일정한 길이를 유지하며 효율적으로 탐색함을 보여준다. 특히 (d)에서 T2PO의 클립 비율이 낮게 유지되는 것은 TTI가 불필요한 생성을 사전에 차단하고 있음을 의미한다.
학습 단계에 따른 GiGPO와 T2PO의 응답 길이 및 클립 비율 변화 그래프
기술 상세
T2PO는 GRPO(Group Relative Policy Optimization)의 구조를 확장하여 계층적 어드밴티지 추정(Hierarchical Advantage Estimation)을 수행한다. 전체 궤적에 대한 글로벌 보상과 각 턴에 대한 프로세스 보상을 결합한 Group-in-Group Advantage를 사용하여 정책을 업데이트한다.
학습의 안정성을 위해 Rejective Fine-tuning(RFT)을 콜드 스타트 전략으로 채택하여 초기 정책이 구조적으로 유효한 액션을 생성하도록 유도한다. 또한 메모리 컨텍스트 윈도우를 도입하여 긴 히스토리로 인한 연산 부하를 줄이면서도 필요한 문맥을 유지한다.
구현 측면에서는 verl 프레임워크를 기반으로 vLLM 추론 엔진을 수정하여 실시간으로 로짓(Logits)을 조작하고 토큰 생성을 제어하는 메커니즘을 통합했다. 이는 비동기 강화학습 환경에서도 오버헤드 없이 동작하도록 설계되었다.
한계점
파이프라인 실행 방식 특성상 오프 폴리시 스테일니스(Off-policy staleness)가 발생할 수 있으며, 이는 상호작용 길이가 길어질수록 중요도 샘플링 가중치의 분산을 키울 위험이 있다. 또한 TTI와 TDS를 위한 임계값(ε, η) 설정이 환경의 복잡도에 따라 민감하게 작용할 수 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.