핵심 요약
강화학습(Reinforcement Learning)으로 훈련된 대형 언어 모델(LLM) 에이전트에게 탐색(Exploration)은 여전히 주요한 병목 현상으로 남아 있습니다. 기존 방법들은 사전 학습된 지식을 활용하지만, 새로운 상태를 발견해야 하는 환경에서는 실패하는 경우가 많습니다. 본 논문에서는 탐색을 위해 메모리를 활용하고 온폴리시(On-policy) 및 오프폴리시(Off-policy) 업데이트를 결합한 하이브리드 강화학습 프레임워크인 EMPO^2(Exploratory Memory-Augmented On- and Off-Policy Optimization)를 제안합니다. 이 프레임워크는 LLM이 메모리를 사용하여 우수한 성능을 발휘하게 하는 동시에, 메모리가 없는 상황에서도 강건성(Robustness)을 보장합니다. ScienceWorld와 WebShop 벤치마크에서 EMPO^2는 GRPO 대비 각각 128.6%와 11.3%의 성능 향상을 달성했습니다. 또한, 분포 외(Out-of-distribution) 테스트에서 EMPO^2는 파라미터 업데이트 없이 메모리를 사용한 몇 번의 시도만으로 새로운 작업에 대한 뛰어난 적응력을 보여주었습니다. 이러한 결과는 EMPO^2가 더 탐색적이고 일반화 가능한 LLM 기반 에이전트를 구축하기 위한 유망한 프레임워크임을 시사합니다.
핵심 기여
EMPO^2 하이브리드 강화학습 프레임워크 제안
메모리 기반 탐색과 온/오프 폴리시 업데이트를 결합하여 LLM 에이전트의 탐색 효율성과 강건성을 동시에 확보하는 새로운 학습 구조를 제시했습니다.
메모리 증강을 통한 탐색 병목 해결
과거 경험을 메모리에 저장하고 활용함으로써 사전 학습 지식에만 의존하던 기존 에이전트의 한계를 극복하고 환경 내의 새로운 상태를 효과적으로 발견하도록 설계했습니다.
분포 외(OOD) 환경에서의 뛰어난 적응력
별도의 모델 파라미터 업데이트 없이도 메모리 참조만으로 새로운 작업과 환경에 빠르게 적응할 수 있음을 실험을 통해 입증하여 일반화 가능성을 높였습니다.
방법론
EMPO^2는 탐색 데이터를 저장하는 메모리 구조를 도입하고, 이를 온폴리시(On-policy)와 오프폴리시(Off-policy) 학습에 동시에 활용합니다. 온폴리시 업데이트는 현재 정책의 안정성을 유지하고, 오프폴리시 업데이트는 메모리에 저장된 과거의 성공적인 탐색 경로를 재사용하여 학습 효율을 극대화하는 구조를 가집니다.
주요 결과
ScienceWorld 벤치마크에서 기존 GRPO 모델 대비 128.6%의 성능 향상을 기록했으며, WebShop 환경에서도 11.3% 높은 점수를 획득했다. 특히 분포 외(OOD) 테스트에서 파라미터 수정 없이 메모리 활용만으로 높은 적응 성능을 보였다.
시사점
LLM 에이전트가 복잡한 환경에서 스스로 정답을 찾아가는 탐색 능력을 크게 개선할 수 있습니다. 특히 실무 환경에서 매번 모델을 재학습시키지 않고도 메모리 업데이트만으로 새로운 도메인에 대응하는 에이전트 시스템 구축에 기여할 것입니다.
키워드
섹션별 상세
EMPO^2 하이브리드 강화학습 프레임워크 제안
메모리 증강을 통한 탐색 병목 해결
분포 외(OOD) 환경에서의 뛰어난 적응력
AI 요약 · 북마크 · 개인 피드 설정 — 무료