핵심 요약
멀티턴 에이전트 학습 시 각 도구 호출의 가치를 정확히 평가하기 어려웠던 문제를 외부 모델 없이 해결했다. 정보 이득(Information Gain) 신호를 턴 위치별로 정규화하고 업데이트 강도를 조절하여 학습 안정성과 성능을 동시에 확보했다.
왜 중요한가
멀티턴 에이전트 학습 시 각 도구 호출의 가치를 정확히 평가하기 어려웠던 문제를 외부 모델 없이 해결했다. 정보 이득(Information Gain) 신호를 턴 위치별로 정규화하고 업데이트 강도를 조절하여 학습 안정성과 성능을 동시에 확보했다.
핵심 기여
턴 그룹 정규화 메커니즘
동일한 질문과 동일한 상호작용 깊이(턴 인덱스)를 가진 샘플끼리만 정보 이득을 비교 정규화하여, 위치에 따른 문맥 차이로 발생하는 편향을 제거했다.
분산 재조정된 discounted 누적 방식
누적된 정보 이득을 턴 수의 제곱근으로 나누어, 궤적의 깊이에 상관없이 어드밴티지의 크기를 일정하게 유지함으로써 학습의 일관성을 높였다.
적응형 턴 수준 클리핑
각 턴의 정보 이득 크기에 따라 PPO의 클리핑 범위를 동적으로 조절하여, 유익한 정보가 많은 턴에는 더 넓은 업데이트 범위를 허용하고 그렇지 않은 턴은 억제했다.
핵심 아이디어 이해하기
기존 에이전트 강화학습은 전체 과정이 끝난 후 성공/실패 여부만 따지는 '결과 보상'에 의존했다. 이는 마치 긴 시험을 다 치고 점수만 받는 것과 같아서, 중간에 어떤 풀이 과정이 결정적이었는지 알기 어렵다. 이를 해결하기 위해 각 단계마다 정답 확률이 얼마나 올랐는지 측정하는 '정보 이득'을 사용하지만, 단순히 모든 단계의 수치를 섞어서 평균을 내면 초반 단계와 후반 단계의 난이도 차이를 무시하게 된다.
A2TGPO는 이를 해결하기 위해 '같은 단계에 있는 샘플들'끼리만 성적을 비교한다. 1번 문제 풀이 과정은 다른 학생들의 1번 문제 풀이와만 비교하는 식이다. 또한, 뒤로 갈수록 누적되는 점수가 커져서 학습이 불안정해지는 것을 막기 위해 수학적으로 분산을 일정하게 맞추는 재조정 과정을 거친다.
마지막으로, 정말 중요한 힌트를 찾아낸 단계에서는 모델이 더 과감하게 배울 수 있도록 학습 제한(Clipping)을 풀어주고, 별 의미 없는 단계에서는 변화를 최소화하도록 설계했다. 이를 통해 모델은 어떤 도구 호출이 실제로 정답에 가까워지게 했는지 정밀하게 학습할 수 있다.
방법론
전체 프레임워크는 정보 이득(IG)을 내재적 공정 신호로 사용하여 외부 평가자 없이 턴 단위 기여도를 산출한다. [각 턴의 정답 확률 변화량 → IG 계산 → 동일 턴 그룹 내 z-정규화 → 위치 편향 제거된 신호 생성] 과정을 거친다.
어드밴티지 산출 시에는 Discounted Cumulative IG를 사용하되, 이를 누적 항 개수 n의 제곱근으로 나눈다. [누적된 IG 값 → sqrt(n)으로 나눗셈 → 모든 턴 위치에서 일정한 분산 확보 → 안정적인 그래디언트 전파] 원리를 적용하여 궤적 깊이에 따른 어드밴티지 크기 왜곡을 방지한다.
정책 업데이트 단계에서는 시그모이드 함수를 통해 정규화된 IG를 클리핑 스케일 c로 매핑한다. [정규화된 IG 입력 → 1 + beta * (2 * sigmoid(IG) - 1) 연산 → 1-beta에서 1+beta 사이의 값 출력 → PPO 클리핑 범위 조절] 방식으로 정보량이 많은 턴의 업데이트 비중을 높인다.
관련 Figure

정보 이득 계산부터 턴 그룹 정규화, 분산 재조정 어드밴티지 생성, 적응형 클리핑을 거쳐 정책이 업데이트되는 전체 워크플로우를 시각화한다. 각 구성 요소가 어떻게 상호작용하여 최종 손실 함수를 형성하는지 명확히 보여준다.
A2TGPO의 전체 프레임워크를 보여주는 아키텍처 다이어그램
주요 결과
Qwen3-4B, 8B 및 Qwen2.5-7B 모델을 기반으로 7개의 벤치마크에서 실험한 결과, 기존 RL 방법론 대비 멀티홉 QA에서 평균 +1.75점, 싱글홉 QA에서 +1.69점의 성능 향상을 기록했다. 특히 복잡한 추론이 필요한 MuSiQue와 Bamboogle 데이터셋에서 큰 폭의 개선을 보였다.
Ablation Study를 통해 턴 그룹 정규화(TG-Norm)가 위치 편향을 제거하여 성능을 크게 높임을 확인했으며, 분산 재조정(Dt-rescaling)과 적응형 클리핑(Ada-Clipping)이 추가될 때마다 성능이 계단식으로 향상됨을 입증했다. 또한 학습 과정에서 엔트로피 붕괴를 막고 안정적인 학습 곡선을 유지하는 효과를 보였다.
관련 Figure

기존 IGPO는 턴이 깊어질수록 어드밴티지 편향과 분산 불균형이 심해지지만, A2TGPO는 모든 턴에서 균일하고 안정적인 분포를 유지함을 입증한다. 이는 제안된 정규화와 재조정 기법의 효과를 직접적으로 증명한다.
IGPO와 A2TGPO의 턴별 어드밴티지 분포 비교 차트
기술 상세
본 연구는 기존 IGPO가 가진 위치적 편향(Positional Bias)을 수학적으로 증명하고 이를 해결하기 위한 Turn-Group Normalization을 제안한다. 수식적으로 동일한 (q, t) 그룹 내에서만 통계량을 산출함으로써, 궤적 깊이에 따른 정보 이득 분포의 이질성을 극복한다.
어드밴티지 설계에서는 중심한계정리(CLT)에 기반하여 누적 항의 개수 ni,t에 대해 sqrt(ni,t)로 스케일링함으로써 모든 턴 위치에서 어드밴티지의 분산을 일정하게 유지(Variance Homogeneity)한다. 이는 특정 턴이 그래디언트 업데이트를 지배하는 현상을 방지한다.
손실 함수는 토큰 단위가 아닌 턴 단위의 중요도 샘플링 비율(Importance Sampling Ratio)을 사용하며, 이는 에이전트의 상호작용 구조와 최적화 단위를 일치시킨다. 적응형 클리핑은 정보 이득에 따른 'Per-turn Trust'를 구현하여 유의미한 행동에 대해 신뢰 영역(Trust Region)을 동적으로 확장한다.
한계점
정답(Ground-truth)이 명확한 작업에만 정보 이득 신호를 계산할 수 있어, 정답이 모호한 창의적 글쓰기나 주관적 평가가 필요한 작업에는 직접 적용하기 어렵다.
실무 활용
외부 보상 모델(PRM) 구축 비용 없이도 멀티턴 에이전트의 도구 사용 능력을 고도화할 수 있는 효율적인 학습 프레임워크이다.
- 복잡한 검색 및 도구 호출이 필요한 멀티턴 질의응답 시스템 최적화
- 외부 평가 모델을 학습시키기 어려운 특수 도메인용 AI 에이전트 개발
- 추론 비용 절감을 위해 불필요한 도구 호출을 줄여야 하는 에이전트 학습
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.