Mem-π: 학습을 통한 적응 메모리

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

LLM 에이전트는 상호 작용 간 누적된 경험을 재활용하는 데 한계가 있다. Mem-π는 메모리를 파라미터로 내재화하고 필요시 생성하며 abstention으로 불필요한 생성은 차단한다. 이를 통해 메모리 관리 오버헤드를 줄이고 작업 맥락에 맞춘 지침을 제공함으로써 웹 탐색, 터미널 도구 사용, 텍스트 기반 임베디드 환경에서 성능 향상을 달성한다.

왜 중요한가

LLM 에이전트는 상호 작용 간 누적된 경험을 재활용하는 데 한계가 있다. Mem-π는 메모리를 파라미터로 내재화하고 필요시 생성하며 abstention으로 불필요한 생성은 차단한다. 이를 통해 메모리 관리 오버헤드를 줄이고 작업 맥락에 맞춘 지침을 제공함으로써 웹 탐색, 터미널 도구 사용, 텍스트 기반 임베디드 환경에서 성능 향상을 달성한다.

핵심 기여

Memory를 생성형 정책으로 취급

Mem-π는 memory policy πmem를 도입하여 언제 생성하고 무엇을 생성할지 결정한다. Mem-π는 다운스트림 에이전트의 맥락(q, o)에 맞춘 구체적 가이던스를 파라미터 내에 저장하고, 필요 시 입력 맥락에 주입한다.

두 단계 Distillation으로 지식 내재화

Stage 1 Experience Distillation으로 오프라인 경험 은행의 힌트를 학습해 파라미터에 재구성하고, Stage 2 Adaptation Distillation으로 Downstream 성과를 보상으로 학습하여 메모리생성의 유용성을 최적화한다.

Decision-Content Decoupled Policy Optimization

GRPO를 확장해 y = d ⊕ m 형태의 구조를 도입하고, decision과 content를 분리해 학습한다. Structured rollout으로 abstain/generate 간 비교를 가능하게 하며, per-token 어드밴티지로 토큰 단위 업데이트를 수행한다.

다양한 벤치마크에서의 성능 및 토큰 효율성 향상

WebArena, WorkArena, ALFWorld, LAB 등에서 RAG 및 MemRL 기반 메모리 baselines 대비 일관된 성능 향상을 보이며, 평균적으로 약 20% 상대 개선과 도메인별 큰 이득을 달성한다. 또한 Mem-π는 메모리 토큰 사용량을 Stage 1 대비 31% 감소시키고 평균 약 138토큰으로 감소시키며 성능을 유지한다.

핵심 아이디어 이해하기

출발점은 retrieval 기반의 외부 메모리 banks가 현재 컨텍스트에 맞추기 어렵고, 기억 재생이 비생산적이거나 불일치할 수 있다는 점이다. Mem-π는 메모리를 파라미터화된 정책으로 다루고, context(q, o)에 조건화된 가이던스를 생성한다. 경험(distillation)으로 초기 지식을 내재화하고, 역전파를 통한 적응(distillation)으로 downstream 보상에 맞추어 미세 조정한다. abstention을 도입해 필요 없으면 기억 생성을 중단하고, 비생성 상황에서도 성능 저하를 막는다. 결과적으로 메모리 소비를 감소시키면서도 도메인 전반에서 성능향상을 달성한다.

방법론

메모리 시스템을 전체 아키텍처의 핵심 제어 단위로 재설정한다. E는 오프라인 경험 은행으로, (q, o) 형태의 문맥과 (m) 형태의 메모리 지침을 포함한다. First, π1_mem은 x = (q, o)에서 m을 예측하는 지도학습 objective로 학습한다. 두 번째, π2_mem은 (q, o)에서 y = d ⊕ m를 출력하도록 강화학습으로 미세조정하며, d는 [GENERATE], [ABSTAIN] 중 하나의 결정 토큰이다. Generate일 때 m은 길이 Lmax 토큰까지 생성되고, Abstain일 때 m은 ∅로 설정된다. GRPO를 확장해 Structured rollout 그룹을 구성하고, 각 그룹에서 abstain(y0)와 generate(y1..yG-1) 간의 비교를 통해 결정-콘텐츠 어드밴티지를 분리한다. 콘텐츠 어드밴티지는 generate 롤아웃의 보상들을 평균화한 Vgen에서 벗어나지 않는 범위에서, 각 생성 yj의 보상을 정규화해 순위를 매긴다. 정책 업데이트는 per-token 어드밋지로 각 토큰 위치에 전달되며, Δ-gating으로 결정 신호와 내용 신호를 구분한다. Stage 2의 학습은 8 GPUS의 분산 학습으로 수행되며, 길이 규제(Rm)와 함께 보상에 반영한다.

주요 결과

주요 벤치마크에서 Mem-π가 SOTA에 도달한다. WebArena의 각 하위 영역에서 RAG 대비 Reddit(+23.8pp), CMS(+28.2pp)에서 가장 큰 이득을 보인다. WorkArena에서 평균 SR이 42.0%에서 50.3%로 상승하며 Form 영역에서 +14.9pp의 큰 이득을 보인다. ALFWorld에서 91.6%의 SR를 달성했고, GPT-5.4-mini 대비 +6.3pp의 개선이다. Stage 1 만으로도 WebArena에서 35.0%를 달성했고, Stage 2를 더하면 WebArena에서 +8.1pp의 추가 이득이 가능하다(총 43.1%). 시나리오에 따라 CMS +25.4pp, Reddit +4.8pp, Maps +3.0pp의 상승이 관찰된다. Multi-domain에서 텍스트+비전 모델 버전은 텍스트 단일 버전에 비해 WebArena에서 +2.7pp 상승을 보인다. Cross-agent 전이에서도 Mem-π가 RAG 대비 더 큰 혜택을 보이며, 훈련 시 에이전트(Qwen-2.5-7B-Instruct)에서 WA에서 +18.2pp, ALF에서 +11.8pp의 추가 이점을 기록한다. Mem-π의 메모리 토큰 사용량은 평균 138토큰으로, Stage 1의 200토큰 대비 31% 감소하고 Memory-R1의 225토큰 대비 38% 감소한다.

기술 상세

Mem-π는 θ로 매개된 Mem-π(memory policy)를 독립된 모듈로 두고, offline experience bank E를 이용해 Stage 1에서 πmem의 매개변수를 지도학습으로 학습한다. 2) Stage 2에서 πmem은 (q, o)에서 y = d ⊕ m를 출력하도록 학습하는데, d는 [GENERATE], [ABSTAIN] 중 하나의 의사결정 토큰이며, m은 생성 힌트다. 3) Structured rollout은 y0 = [ABSTAIN] ⊕ ∅, yj = [GENERATE] ⊕ mj (j=1..G-1)으로 구성되며, abstention과 generate 간의 비교를 가능하게 한다. 4) Δ-gating으로 decision-level 어드밴티지 Ad와 content-level 어드밴티지 Ac를 분리해 각 토큰 위치에 전달한다. 5) J(2) mem(θ) 최적화는 GRPO의 표준 구조를 유지하되, 토큰 수준의 어드밋지 A_tj를 사용해 결정-콘텐츠 구분 학습을 수행한다. 6) 보상은 TaskReward와 길이 규제 Rm으로 구성되며, generate에 대해선 생성 힌트의 길이가 길수록 보상이 감소한다. 7) 비주얼 입력의 경우 Qwen-2.5-VL-7B-Instruct를 백본으로 활용해 VL-메모리 버전의 성능을 비교한다. 8) 구현은 TRL 기반의 학습 루프와 DeepSpeed-ZeRO-2, vLLM 기반의 롤아웃으로 구성되며, Stage 1은 8× H100-80GB에서 병렬 학습한다.

실무 활용

Mem-π는 메모리 생성 여부와 내용을 분리해 학습한 생성형 기억 모듈로, 다양한 에이전트 시스템에 적용 가능하다.

웹 자동화 에이전트에서 컨텍스트에 맞춘 메모리 힌트를 생성해 신속한 의사결정을 돕는다.
터미널 기반 자동화 에이전트에서 과거 대화 흐름을 요약하고 재활용하는 메모리 생성을 수행한다.
텍스트 기반 임베디드 환경에서 멀티도메인 태스크에 대한 적응 기억 생성을 통해 학습 곡선을 단축한다.
비주얼 grounding이 있는 멀티모달 에이전트에서 시각 정보를 활용한 메모리 생성을 통해 성능을 향상시킨다.

코드 공개 여부: 미확인

키워드

Mem-π memory policyadaptive memorydecision-content decoupled reinforcement learningGRPOweb navigationterminal tool usevision-language memory

용어 해설

Mem-π memory policy: — Mem-π는 에이전트의 메모리 생성을 상황에 맞춰 온디맨드로 생성하는 파라메트릭 정책이다. 두 단계(distillation) 학습으로 배경 지식을 파라미터에 내재화하고 abstention으로 필요할 때만 메모리를 생성하며, Downstream 과제 성공에 보상을 맞춘다. 외부 메모리의 검색 기반 접근의 한계를 극복하고 메모리 관리의 오버헤드를 줄인다.
GRPO: — Group Relative Policy Optimization으로, 그룹 샘플의 상대적 이점을 이용해 정책 업데이트를 수행하는 강화학습 알고리즘이다. Mem-π의 Stage 2에서 memory 생성 여부와 내용을 구분하여 학습하는 데 활용된다.
Experience Distillation: — 오프라인 경험 은행의 기억 조각을 파라미터로 압축해Mem-π가 새로운 상황에서 context-specific 가이던스를 생성하도록 학습시키는 1단계.
Adaptation Distillation: — Stage 2에서 downstream 과업 결과를 보상으로 사용해 Mem-π의 파라미터를 강화학습으로 미세조정하는 과정. decision-contents decoupled 학습 목표에 맞춰 파생되는 보상 신호를 학습한다.
Structured Counterfactual Rollout: — 결정(token)과 콘텐츠(content) 학습 신호를 분리하기 위해, abstain/ generate로 구성된 구조적 롤아웃 그룹을 구성하고 GRPO의 어드밴티지 분해에 활용한다.