핵심 요약
AI 에이전트가 복잡한 작업을 수행하도록 훈련할 때 학습이 갑자기 멈추거나 성능이 급락하는 불안정성 문제를 해결했다. 다양한 강화학습 기법을 체계적으로 분석하여 가장 안정적인 조합인 SAMPO를 제안함으로써, 누구나 재현 가능한 고성능 에이전트를 구축할 수 있는 표준 레시피를 제공한다.
왜 중요한가
AI 에이전트가 복잡한 작업을 수행하도록 훈련할 때 학습이 갑자기 멈추거나 성능이 급락하는 불안정성 문제를 해결했다. 다양한 강화학습 기법을 체계적으로 분석하여 가장 안정적인 조합인 SAMPO를 제안함으로써, 누구나 재현 가능한 고성능 에이전트를 구축할 수 있는 표준 레시피를 제공한다.
핵심 기여
ARLArena 분석 프레임워크 구축
에이전트 강화학습의 안정성을 체계적으로 진단하고 재현할 수 있는 표준화된 테스트베드와 진단 방법론을 개발했다.
정책 경사 4대 설계 차원 정의
손실 집계, 중요도 샘플링 클리핑, 어드밴티지 설계, 동적 필터링이라는 네 가지 핵심 설계 요소를 분해하여 각각의 성능 및 안정성 영향을 분석했다.
학습 붕괴의 근본 원인 규명
토큰 단위의 클리핑이 아닌 시퀀스 단위의 클리핑이 안정성에 결정적이며, 음수 어드밴티지를 가진 샘플의 누적이 학습 붕괴를 유도함을 밝혔다.
SAMPO 알고리즘 제안
시퀀스 레벨 클리핑, 세밀한 환경 어드밴티지, 동적 필터링을 결합하여 기존 GRPO 대비 평균 25.2% 향상된 성능과 높은 학습 안정성을 달성했다.
핵심 아이디어 이해하기
기존의 강화학습은 주로 단일 턴의 추론에 최적화되어 있어, 여러 단계의 상호작용이 필요한 에이전트 환경에서는 초기 단계의 작은 실수가 증폭되어 전체 학습이 무너지는 '학습 붕괴' 현상이 빈번했다. 이는 정책 경사(Policy Gradient) 계산 시 특정 토큰의 확률 변화가 너무 크면 전체 업데이트가 요동치기 때문이다.
이 논문은 정책 경사 계산 과정을 네 가지 부품으로 분해하여 분석한 결과, 개별 단어(토큰) 단위로 업데이트 크기를 제한하는 기존 방식이 에이전트 환경에서는 오히려 독이 된다는 사실을 발견했다. 대신 전체 행동 문장(시퀀스) 단위로 업데이트 강도를 조절하는 것이 안정성에 핵심적임을 확인했다.
최종 제안된 SAMPO는 시퀀스 단위의 클리핑을 적용하고, 환경의 상태 변화를 반영한 정교한 보상 신호를 결합했다. 이를 통해 AI가 어떤 행동이 정말 유익했는지 정확히 판단하게 함으로써, 학습 곡선이 요동치지 않고 꾸준히 상승하는 안정적인 성능 향상을 가능하게 했다.
방법론
ARLArena는 행동 복제(Behavior Cloning) 초기화, 형식 페널티(Format Penalty), KL 발산 규제화를 포함한 표준화된 학습 레시피를 제공한다. [SFT 데이터 입력 → 모델 초기화 및 규제 적용 → 안정적인 베이스라인 생성] 과정을 통해 알고리즘 간의 공정한 비교가 가능하도록 설계했다.
정책 경사 최적화(PO)를 네 가지 차원으로 분해하여 분석한다. 첫째는 손실 집계 방식으로 토큰 평균과 시퀀스 평균의 차이를 다룬다. 둘째는 중요도 샘플링(IS) 클리핑으로, 토큰 레벨의 하드 클리핑과 시퀀스 레벨 클리핑의 안정성을 비교한다. 셋째는 어드밴티지 설계로, 환경 상태 정보를 결합한 GiGPO와 불확실성을 반영한 EMPG를 평가한다. 넷째는 동적 필터링으로, 학습 신호가 없는 궤적을 제거하고 유의미한 샘플을 재추출한다.
최종 제안된 SAMPO는 시퀀스 레벨 클리핑(), 상태 기반 어드밴티지(), 그리고 동적 필터링을 통합한다. 시퀀스 레벨 비율 는 [토큰별 확률비의 로그값들을 입력으로] → [평균을 내고 지수 함수를 취하는 연산을 수행해] → [시퀀스 전체를 대표하는 하나의 비율을 얻고] → [이 값이 클리핑의 기준이 되어 전체 시퀀스의 업데이트 강도를 조절함]으로써 고분산 토큰에 의한 불안정성을 억제한다.
주요 결과
ALFWorld, WebShop, Sokoban, TIR Math 등 4가지 에이전트 작업에서 SAMPO는 GRPO 대비 평균 25.2%의 성능 향상을 기록했다. 특히 ALFWorld에서는 성공률이 62.36%에서 92.72%로 대폭 상승하며 가장 강력한 성능을 보였다.
안정성 분석 결과, 기존의 토큰 레벨 클리핑 방식은 학습 초기에는 빠른 성장을 보이다가 특정 단계에서 학습 붕괴를 겪는 반면, SAMPO는 학습 전 과정에서 단조 증가하는 안정적인 곡선을 유지했다. 또한 모델 크기를 8B로 확장한 실험에서도 시퀀스 레벨 클리핑이 학습 붕괴를 막는 핵심 요소임이 재확인되었다.
오픈소스 모델인 Qwen3-4B를 SAMPO로 학습시킨 결과, ALFWorld 작업에서 GPT-5.2(51.56%)나 o3 기반 시스템(56.25%)을 압도하는 92.72%의 성공률을 달성하여 모델 규모보다 안정적인 강화학습 알고리즘이 더 중요함을 입증했다.
기술 상세
SAMPO의 핵심은 정책 업데이트의 단위를 토큰에서 시퀀스로 전환한 것이다. 시퀀스 레벨 중요도 비율 는 시퀀스 내 토큰별 비율 의 기하 평균으로 정의되며, 이는 특정 토큰의 극단적인 확률 변화가 전체 정책 업데이트를 왜곡하는 것을 방지한다.
실험적으로 음수 어드밴티지를 가진 샘플이 낮은 IS 비율을 가질 때 발생하는 폭발적인 KL 발산이 학습 붕괴의 주범임을 확인했다. SAMPO는 이를 시퀀스 레벨에서 제어하고, 음수 어드밴티지 샘플에 대한 시퀀스 마스킹을 적용하여 안정성을 확보했다.
어드밴티지 설계에서는 GiGPO의 계층적 구조를 차용하여, 전체 궤적의 보상뿐만 아니라 각 단계에서의 환경 상태 변화에 따른 상대적 이득을 결합했다. 이는 보상이 희소한 에이전트 환경에서 더 명확한 학습 신호를 제공하여 신용 할당(Credit Assignment) 문제를 완화한다.
동적 필터링은 모든 샘플이 동일한 보상을 받아 기울기가 0이 되는 무의미한 궤적을 배제하고, 유익한 정보가 있는 샘플로 배치를 재구성하여 학습 효율을 극대화한다. 이는 특히 학습 초기 단계에서 형식 오류로 인해 발생하는 노이즈를 효과적으로 억제한다.
한계점
논문은 특정 에이전트 환경에 최적화된 하이퍼파라미터 설정이 다른 도메인에서 완벽하게 전이되지 않을 수 있음을 언급하며, 오프-폴리시(Off-policy) 데이터의 신선도가 성능에 미치는 민감도가 여전히 과제로 남아있음을 지적했다.
실무 활용
복잡한 멀티 턴 상호작용이 필요한 LLM 에이전트 학습 시 발생하는 고질적인 불안정성 문제를 해결할 수 있는 실무적인 가이드를 제공한다. 오픈소스 모델로도 유료 모델에 필적하는 고성능 에이전트를 구축할 수 있는 구체적인 방법론을 제시한다.
- 웹 브라우징 및 전자상거래 자동화 에이전트 학습
- 복잡한 수학 문제 풀이 및 코드 실행 에이전트 최적화
- 가상 환경 내에서 물체를 조작하는 로봇 에이전트의 강화학습
- 다단계 추론이 필요한 고객 지원 챗봇의 성능 개선
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.