Memex(RL): 인덱스 기반 경험 메모리를 통한 장기 작업 LLM 에이전트 확장

왜 중요한가

장기 작업을 수행하는 LLM 에이전트가 겪는 문맥 창의 한계와 정보 유실 문제를 해결한다. 정보를 단순히 요약하여 압축하는 대신, 인덱스 주소만 남기고 상세 내용은 외부 저장소에 보관했다가 필요할 때만 정확히 찾아 쓰는 방식을 통해 의사결정 품질을 획기적으로 높였다.

핵심 기여

Indexed Experience Memory (Memex) 아키텍처

문맥 내에는 간결한 인덱스 요약만 유지하고 상세 데이터는 외부 키-값 저장소에 보관하여, 정보 손실 없이 문맥을 압축하는 새로운 메모리 인터페이스를 구축함.

강화학습 기반의 MemexRL 프레임워크

에이전트가 스스로 무엇을 요약하고 언제 외부 데이터를 조회할지 학습하도록 문맥 예산 기반의 보상 설계와 세그먼트 단위 궤적 처리 기법을 도입함.

이론적 의사결정 품질 보존 증명

인덱스 기반 메모리 루프가 제한된 역참조만으로도 전체 이력을 참조하는 최적 정책과 동일한 결정 품질을 유지할 수 있음을 수학적으로 분석함.

장기 작업 성능 및 효율성 대폭 개선

복잡한 ALFWorld 환경에서 작업 성공률을 24.2%에서 85.6%로 높이는 동시에 피크 문맥 사용량을 약 43% 절감하는 성과를 거둠.

핵심 아이디어 이해하기

Transformer 기반 LLM의 Attention Mechanism은 입력된 모든 토큰 간의 관계를 계산하므로, 문맥이 길어질수록 연산량과 메모리 부하가 기하급수적으로 증가한다. 기존 에이전트들은 이를 해결하기 위해 과거 기록을 잘라내거나 짧게 요약했지만, 이 과정에서 나중에 결정적인 역할을 할 세부 정보가 사라지는 정보 손실 문제가 발생했다.

Memex는 도서관의 '인덱스 카드' 시스템을 LLM 문맥에 도입한다. 에이전트는 현재 작업에 꼭 필요한 핵심 상태와 과거 기록의 '주소(Index)'만 문맥(Working Context)에 남기고, 상세한 도구 출력이나 실행 로그는 외부 데이터베이스에 원본 그대로 저장한다. 이 방식은 문맥 창을 작고 효율적으로 유지하면서도 정보의 무결성을 보존한다.

이후 에이전트가 특정 과거 정보가 필요하다고 판단하면, 문맥에 남겨둔 주소를 참조해 외부 저장소에서 해당 데이터를 정확히 다시 불러온다(Dereferencing). 이를 통해 에이전트는 수백 단계의 긴 작업 과정에서도 과거의 100% 정확한 증거에 기반하여 논리적 추론을 이어갈 수 있게 된다.

방법론

에이전트 문맥 $M$ 을 고정된 시스템 프롬프트와 가변적인 IndexedSummary로 구성한다. IndexedSummary는 현재 진행 상태 $s$ 와 외부 저장소 $\mathcal{D}$ 의 주소-설명 쌍의 집합 $I$ 를 포함하는 구조적 상태이다.

메모리 조작을 위해 두 가지 핵심 도구를 정의한다. CompressExperience는 현재 문맥의 상세 내용을 외부 저장소에 쓰고 인덱스 요약본으로 대체하며, ReadExperience(index)는 특정 인덱스의 원본 데이터를 다시 문맥에 주입한다. [인덱스 문자열 입력 → 외부 DB 조회 → 원본 텍스트 출력 → 문맥에 추가] 순으로 연산이 이루어진다.

강화학습 알고리즘으로 GRPO(Group Relative Advantage Estimation)를 사용하여 에이전트의 메모리 관리 행동을 최적화한다. 보상 함수 $R = R_{task} - P_{context} - P_{redundancy} - P_{format}$ 을 통해 작업 성공뿐만 아니라 문맥 오버플로우, 중복 도구 호출, 형식 오류에 대한 페널티를 통합 관리한다. [문맥 토큰 수 입력 → 임계값 초과분 계산 → 페널티 수치 출력 → 최종 보상 차감] 방식으로 효율적인 메모리 사용을 유도한다.

압축이 발생할 때마다 궤적을 분리하여 독립적인 학습 샘플로 처리하는 세그먼트 단위 궤적 처리 기법을 적용한다. 각 세그먼트는 서로 다른 문맥 접두사(Prefix)를 가지지만 동일한 최종 보상을 공유함으로써, 초기 단계의 메모리 결정이 나중에 미치는 영향을 학습할 수 있도록 크레딧 할당 문제를 해결한다.

주요 결과

수정된 ALFWorld 벤치마크 실험 결과, MemexRL로 학습된 에이전트는 작업 성공률이 24.2%에서 85.6%로 약 3.5배 향상됐다. 이는 에이전트가 단순히 정보를 압축하는 것을 넘어, 나중에 필요한 정보를 전략적으로 저장하고 불러오는 능력을 습득했음을 입증한다.

효율성 측면에서 최대 문맥 사용량(Peak Working Context)이 16,934 토큰에서 9,634 토큰으로 약 43% 감소했다. 이는 설정된 페널티 임계값인 8,000 토큰에 근접한 수치로, 에이전트가 제한된 문맥 예산 내에서 최적의 성능을 내도록 학습되었음을 나타낸다.

학습 과정 분석 결과, 에이전트의 행동 패턴이 변화했다. 초기에는 빈번하게 압축을 시도(6.5회)했으나 학습 후에는 더 선택적으로 압축(3회)하고, 대신 외부 저장소에서 정보를 읽어오는 횟수(1회 → 6~7회)를 늘렸다. 이는 에이전트가 재사용 가능한 인덱스 메모리를 구축하고 필요할 때 정밀하게 조회하는 전략을 선택했음을 보여준다.

실무 활용

수백 단계 이상의 복잡한 워크플로우를 처리해야 하는 코딩 에이전트나 다중 API 연동 시스템에 즉시 적용 가능하다. 문맥 창이 작은 모델로도 대규모 데이터를 다루는 장기 작업을 수행할 수 있게 해주는 실무적 대안을 제시한다.

대규모 코드베이스 분석 및 자동 리팩터링 에이전트
복잡한 과학 문헌 교차 참조 및 심층 요약 시스템
다단계 비즈니스 프로세스 자동화 및 워크플로우 오케스트레이션
장기 대화 이력을 정확하게 참조해야 하는 개인화 AI 비서

기술 상세

In-context Working Memory와 External Experience Archive를 명시적으로 분리하는 아키텍처를 채택하여 문맥 길이에 따른 연산 복잡도 증가 문제를 해결한다. IndexedSummary는 에이전트가 현재 집중해야 할 상태 정보와 과거 데이터에 대한 포인터를 동시에 유지하는 핵심 데이터 구조이다.

이론적 분석을 통해 Decision-sufficient indexed summary 개념을 정의했다. 이는 인덱스 요약과 유계된(bounded) 횟수의 역참조만으로도 전체 이력을 가진 최적 정책의 행동 분포를 완벽하게 재현할 수 있음을 의미한다. 이를 통해 문맥을 제한하면서도 성능 저하가 없는 메모리 루프의 가능성을 수학적으로 뒷받침했다.

보상 설계 시 $P_{context}$ 페널티는 임계값 $\tau$ 를 넘는 토큰 수의 누적합을 전체 단계 수로 정규화하여 계산한다. 이는 에이전트가 문맥이 꽉 차기 전에 선제적으로 압축을 수행하도록 유도하는 강력한 신호가 된다.

학습 모델로는 Qwen3-30B-A3B-Thinking 모델을 사용했으며, INT4 양자화 및 양자화 인식 학습(QAT)을 적용하여 메모리 효율성을 극대화했다. 또한 Truncated Importance Sampling(TIS)을 통해 멀티턴 상호작용에서 발생하는 추론-학습 간의 불일치를 완화했다.

키워드

LLM Agent(대형 언어 모델 에이전트)Context Window(문맥 창)Reinforcement Learning(강화학습)Memory Management(메모리 관리)Indexed Memory(인덱스 메모리)GRPO(그룹 상대적 어드밴티지 추정)