핵심 요약
기존 LLM 에이전트는 새로운 환경에서 정답을 찾기 위해 시도하기보다 기존 지식에만 의존하는 경향이 있어 복잡한 문제 해결에 한계가 있었다. 이 논문은 에이전트가 스스로 실패를 분석해 메모리에 저장하고 이를 다시 모델의 지능으로 내재화하는 방식을 통해 에이전트의 자율적 탐색 능력을 획기적으로 개선했다.
왜 중요한가
기존 LLM 에이전트는 새로운 환경에서 정답을 찾기 위해 시도하기보다 기존 지식에만 의존하는 경향이 있어 복잡한 문제 해결에 한계가 있었다. 이 논문은 에이전트가 스스로 실패를 분석해 메모리에 저장하고 이를 다시 모델의 지능으로 내재화하는 방식을 통해 에이전트의 자율적 탐색 능력을 획기적으로 개선했다.
핵심 기여
EMPO2 프레임워크 제안
외부 메모리를 활용한 탐색과 온/오프 정책 업데이트를 결합하여 에이전트가 메모리 없이도 강력한 성능을 내도록 학습시키는 하이브리드 강화학습 구조를 구축했다.
자기 생성 메모리 시스템
에이전트가 과거의 실패 궤적을 스스로 검토하여 '팁(Tip)' 형태의 텍스트 가이드를 생성하고 이를 메모리에 저장하여 다음 시도에 활용하는 메커니즘을 구현했다.
보상 가이드 지식 증류
메모리 팁을 보고 성공한 경험을 메모리 없이도 수행할 수 있도록 오프 정책 업데이트를 통해 모델 파라미터에 내재화하는 방식을 도입했다.
참신성 기반 내재적 보상 도입
상태 참신성을 수치화하여 새로운 상태를 발견할 때마다 보상을 부여함으로써 외부 보상이 희소한 환경에서도 지속적인 탐색이 가능하게 했다.
핵심 아이디어 이해하기
강화학습에서 에이전트가 발전하려면 새로운 시도를 하는 '탐색'이 필수적이지만, LLM은 보통 자신이 가장 잘 아는 답변만 내놓으려 한다. 이는 마치 시험 문제의 정답을 모를 때 새로운 풀이법을 고민하기보다 아는 공식만 반복해서 대입하다 포기하는 것과 같다. EMPO2는 에이전트가 실패했을 때 '왜 틀렸는지'를 스스로 메모리에 적어두게 함으로써 이 한계를 돌파한다.
에이전트는 다음 문제 풀이 때 이 메모리를 참고하여 이전과는 다른 새로운 길을 시도한다. 이때 단순히 메모리에만 의존하는 것이 아니라, 메모리를 보고 성공했던 그 '똑똑한 행동'을 메모리 없이도 할 수 있도록 모델의 가중치를 갱신한다. 이는 선생님의 힌트를 보고 문제를 푼 학생이 나중에는 힌트 없이도 스스로 풀 수 있게 실력을 쌓는 과정과 유사하다.
결과적으로 에이전트는 외부 메모리라는 보조 도구를 사용해 더 넓은 영역을 탐색하고, 그 과정에서 얻은 지식을 자신의 파라미터로 흡수한다. 이를 통해 에이전트는 처음 보는 환경에서도 과거의 실패를 교훈 삼아 빠르게 정답을 찾아내는 능력을 갖추게 된다.
방법론
EMPO2는 롤아웃 단계에서 두 가지 모드를 확률적으로 선택한다. 첫 번째는 메모리 없이 현재 정책만 사용하는 모드이고, 두 번째는 과거 실패에서 생성된 팁을 검색하여 프롬프트에 포함하는 메모리 증강 모드이다. 에이전트는 각 단계에서 상태 와 작업 를 입력받아 행동 을 생성하며 환경과 상호작용한다.
업데이트 단계에서는 온 정책과 오프 정책 학습을 병행한다. 온 정책 업데이트는 현재 정책이 생성한 궤적을 그대로 학습에 사용하며, 오프 정책 업데이트는 팁이 포함된 상태에서 생성된 성공적인 행동을 팁이 없는 기본 정책이 학습하도록 유도한다. 이때 중요도 샘플링 비율 를 계산한다. 분모에는 팁이 포함된 과거 확률을, 분자에는 팁이 없는 현재 확률을 입력하여 연산함으로써 팁의 효과를 모델 파라미터로 전이시키는 지식 증류 효과를 얻는다.
또한 탐색을 장려하기 위해 내재적 보상 을 도입한다. 새로운 상태가 관찰되면 기존 상태들과의 코사인 유사도를 계산하고, 유사도가 임계값 이하인 경우에만 메모리에 추가하며 해당 상태의 출현 횟수 의 역수를 보상으로 지급한다. 이는 에이전트가 이미 가본 곳보다 낯선 곳을 방문할 때 더 높은 점수를 받게 하여 정책의 엔트로피를 유지하고 탐색 범위를 넓히는 역할을 한다.
주요 결과
ScienceWorld 벤치마크의 19개 작업에서 EMPO2는 기존의 강력한 강화학습 알고리즘인 GRPO 대비 평균 128.6%의 성능 향상을 기록했다. 특히 탐색 난이도가 높은 작업들에서 GRPO가 조기에 성능 정체에 빠지는 것과 달리, EMPO2는 지속적으로 성능을 개선하여 7개 작업에서 만점(100점)을 달성했다.
WebShop 환경에서도 점수 기준 11.3%, 성공률 기준 16.3%의 향상을 보이며 웹 기반 상호작용 환경에서의 우수성을 입증했다. 이는 텍스트 기반 실험 환경뿐만 아니라 실제 웹 쇼핑과 같은 복잡한 의사결정 구조에서도 EMPO2의 탐색 메커니즘이 효과적임을 보여준다.
분포 외(OOD) 테스트에서는 학습하지 않은 새로운 도메인의 작업에 대해서도 메모리 팁을 활용해 단 10번 이내의 시도만으로 성능을 136% 가량 끌어올리는 빠른 적응력을 보였다. 이는 모델이 메모리를 활용해 새로운 환경을 탐색하는 일반화된 능력을 습득했음을 시사한다.
기술 상세
EMPO2는 GRPO 아키텍처를 다중 단계(Multi-step) 환경으로 확장하고 외부 메모리 버퍼를 통합한 구조이다. 에이전트의 정책 는 Qwen2.5-7B-Instruct를 기반으로 하며, 궤적 생성 후 스스로 반성(Reflection)하여 팁을 생성하는 능력을 보조 신호로 활용한다.
수학적으로 오프 정책 업데이트는 보상 가이드 지식 증류(Reward-guided Knowledge Distillation)로 해석된다. 높은 보상을 받은 궤적()은 강화하고 낮은 보상을 받은 궤적은 억제함으로써, 팁이라는 '임시 가이드'를 통해 발견한 최적의 행동 패턴을 기본 정책이 흡수하게 만든다. 이 과정에서 발생할 수 있는 학습 불안정성을 해결하기 위해 토큰 확률이 임계값 미만인 경우 업데이트를 차단하는 마스킹 메커니즘을 적용했다.
메모리 시스템은 임베딩 공간에서의 유사도 검색을 통해 관련 팁을 추출하며, 최대 10개의 팁을 프롬프트에 주입한다. 학습이 진행됨에 따라 에이전트는 팁 없이도 팁이 있을 때와 유사한 높은 품질의 행동을 생성할 수 있게 되며, 이는 추론 시점에 외부 메모리 없이도 높은 성능을 유지할 수 있게 하는 핵심 동력이 된다.
한계점
현재 메모리 검색은 단순한 코사인 유사도에 의존하고 있어 대규모 메모리 환경에서의 검색 효율성이나 정교함이 부족할 수 있다. 또한 7B 규모의 모델 위주로 검증되었으므로 더 큰 모델이나 다양한 아키텍처에서의 확장성에 대한 추가 연구가 필요하다.
실무 활용
복잡한 단계와 시행착오가 필요한 가상 비서, 로봇 제어, 자동화된 과학 실험 에이전트 개발에 즉시 적용할 수 있다. 에이전트가 스스로 실패를 분석하고 개선하는 루프를 갖추고 있어 사람이 일일이 가이드를 주지 않아도 자율적으로 성능을 높일 수 있다.
- 복잡한 화학 실험이나 물리 시뮬레이션을 수행하는 자율 연구 에이전트
- 사용자의 이전 실패 패턴을 기억해 맞춤형 해결책을 제시하는 고객 지원 챗봇
- 낯선 공장 환경에서 시행착오를 통해 최적의 물류 경로를 찾아내는 산업용 로봇
- 웹사이트 구조 변화에 대응하여 스스로 탐색하고 구매를 완료하는 쇼핑 에이전트
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.