핵심 요약
LLM 에이전트가 긴 작업을 수행할 때 어떤 행동이 성공에 기여했는지 판단하는 Credit Assignment 문제는 매우 어렵다. 이 논문은 추가적인 보상 모델이나 데이터 라벨링 없이 모델 내부의 엔트로피 신호만으로 학습 효율을 극대화하는 경량화된 해결책을 제시한다.
왜 중요한가
LLM 에이전트가 긴 작업을 수행할 때 어떤 행동이 성공에 기여했는지 판단하는 Credit Assignment 문제는 매우 어렵다. 이 논문은 추가적인 보상 모델이나 데이터 라벨링 없이 모델 내부의 엔트로피 신호만으로 학습 효율을 극대화하는 경량화된 해결책을 제시한다.
핵심 기여
AEM(Adaptive Entropy Modulation) 프레임워크 제안
추가적인 지도 학습 신호나 보조 모델 없이 응답 수준의 엔트로피를 활용하여 강화학습의 탐색과 활용을 적응적으로 조절하는 플러그인 방식을 개발했다.
응답 수준 엔트로피 역학의 이론적 분석
엔트로피 드리프트가 샘플링된 응답의 Advantage와 상대적 Surprisal 사이의 상호작용에 의해 결정됨을 수학적으로 증명하고 이를 Credit Assignment의 지표로 활용했다.
다양한 벤치마크에서의 성능 입증
ALFWorld, WebShop, SWE-bench-Verified 환경에서 Qwen 시리즈 모델을 사용해 실험한 결과, 기존 GRPO 대비 최대 8.8%, 최신 소프트웨어 공학 프레임워크인 DeepSWE에서 1.4%의 추가 성능 향상을 기록했다.
핵심 아이디어 이해하기
강화학습에서 모델은 새로운 행동을 시도하는 탐색(Exploration)과 아는 것을 최적화하는 활용(Exploitation) 사이의 균형을 맞춰야 한다. 기존 LLM 에이전트 학습은 토큰 단위로 보상을 나누기 어려워 학습 초기에 특정 행동에만 매몰되는 엔트로피 붕괴 현상이 자주 발생한다.
AEM은 모델이 생성한 전체 응답의 불확실성(Entropy)이 곧 모델의 자신감을 나타낸다는 점에 착안했다. 학습 초기에는 불확실성이 높은 응답에 더 많은 가중치를 두어 다양한 시도를 장려하고, 학습 후기에는 성공 가능성이 높은 응답의 불확실성을 낮추는 방향으로 학습을 유도한다.
이 과정은 별도의 외부 데이터 없이 모델이 생성한 응답 그룹 내의 상대적인 불확실성 수치만으로 계산된다. 결과적으로 모델은 스스로의 확신 정도에 따라 학습 강도를 조절하며, 이는 마치 사람이 어려운 문제는 신중하게 검토하고 익숙한 문제는 빠르게 처리하며 학습하는 것과 유사한 효과를 낸다.
방법론
AEM은 기존 Advantage Estimator 위에 적용되는 플러그인 모듈로 설계되었다. 먼저 에이전트가 생성한 전체 응답 시퀀스를 환경과 상호작용하는 최소 단위인 Response Span으로 정의하고, 해당 구간 내 토큰들의 평균 엔트로피를 계산하여 응답 수준의 불확실성 대리 지표(Proxy)를 생성한다.
계산된 불확실성 지표는 그룹 내에서 Min-Max Normalization을 거쳐 상대적인 크기로 변환된다. [응답별 평균 엔트로피 값 입력 → 그룹 내 최솟값과 최댓값을 이용한 정규화 연산 수행 → 0에서 1 사이의 상대적 불확실성 수치 출력] 이 수치는 다시 지수 함수를 통해 변조 계수 α로 변환된다.
최종적으로 기존의 Advantage 값에 이 α를 곱하여 수정된 Advantage를 산출한다. [기존 Advantage와 변조 계수 α 입력 → 두 값의 곱셈 연산 수행 → 수정된 Advantage 출력] 이 메커니즘을 통해 부정적 보상을 받은 응답 중 불확실성이 높은 것은 엔트로피를 높이는 방향으로, 긍정적 보상을 받은 응답은 엔트로피를 낮추는 방향으로 가중치가 조정된다.
관련 Figure

AEM에서 사용하는 대리 지표가 실제 이론적인 Surprisal과 0.63의 높은 상관관계를 가짐을 보여준다. 이는 제안된 수식이 실제 모델의 불확실성을 적절히 반영하고 있음을 입증하는 근거가 된다.
엔트로피 변조 계수(alpha-1)와 몬테카를로 방식으로 추정한 상대적 Surprisal 사이의 상관관계를 보여주는 산점도.
주요 결과
Qwen2.5-1.5B 모델을 사용한 ALFWorld 실험에서 GRPO 단독 사용 시 68.0%였던 성공률이 AEM 적용 후 76.8%로 8.8%p 상승했다. 7B 모델에서도 78.7%에서 84.4%로 유의미한 성능 향상을 보였다.
WebShop 벤치마크에서는 1.5B 모델 기준 성공률이 65.0%에서 70.6%로 증가했으며, 보상 점수(Score) 또한 83.6에서 86.4로 개선되었다. 이는 추가적인 보상 모델(PRM) 없이도 정교한 Credit Assignment가 가능함을 시사한다.
소프트웨어 공학 작업인 SWE-bench-Verified에서는 Qwen3-32B 기반의 DeepSWE 프레임워크에 통합되어 기존 42.3%의 해결률을 43.7%로 끌어올렸다. 특히 Figure 4와 5를 통해 AEM이 학습 초기 엔트로피 급락을 방지하고 안정적인 성능 우상향을 이끌어냄을 확인했다.
관련 Figure

기존 GRPO는 학습 초기에 엔트로피가 급격히 하락(Collapse)하는 반면, AEM은 초기 엔트로피를 높게 유지하여 충분한 탐색을 보장한다. 이후 학습이 진행됨에 따라 점진적으로 엔트로피를 낮추며 최적화로 전환되는 양상을 확인할 수 있다.
학습 단계에 따른 GRPO와 GRPO+AEM의 엔트로피 변화 궤적 비교 그래프.
기술 상세
AEM은 Fisher-Rao Metric 기반의 정보 기하학적 분석을 통해 엔트로피 역학을 정립했다. Theorem 3.2.2에 따르면 자연 구배(Natural Gradient) 업데이트 하에서 엔트로피 드리프트는 Advantage와 Relative Surprisal의 곱에 비례한다. AEM은 이를 구현하기 위해 Doob's Decomposition을 활용하여 다루기 힘든 상태 엔트로피 대신 계산 가능한 토큰 엔트로피 합을 대리 지표로 사용한다.
구현 측면에서는 그룹 기반 강화학습(GRPO, DAPO 등)의 특성을 활용하여 동일 프롬프트에서 생성된 응답들 사이의 상대적 엔트로피를 비교하는 Group Normalization을 채택했다. 이는 배치 전체나 단일 트래직토리 내에서 정규화하는 것보다 과업별 엔트로피 편향을 효과적으로 제거한다. 또한 추가적인 모델 추론(Forward Pass)이 필요하지 않아 전체 학습 시간 중 AEM 연산이 차지하는 비중은 1.1%에 불과할 정도로 효율적이다.
관련 Figure

전체 학습 시간 중 AEM 관련 계산이 차지하는 비중이 1.1%에 불과함을 보여준다. 이는 AEM이 성능 향상 대비 계산 오버헤드가 매우 적은 효율적인 알고리즘임을 증명한다.
GRPO+AEM 학습 시 각 구성 요소별 소요 시간 비중을 나타낸 파이 차트.
한계점
AEM은 응답 공간 전체에 대한 정확한 엔트로피를 계산하는 대신 샘플링된 그룹 내의 상대적 수치를 사용하므로, 샘플링된 응답들의 품질과 다양성에 성능이 의존적일 수 있다. 또한 오픈 엔드(Open-ended) 생성 작업에서 정확한 Surprisal을 추정하는 것은 여전히 근사치에 기반한 휴리스틱이라는 한계가 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.