서울대학교 DSBA 연구실AI/ML조회 17회

에이전트 AI 메모리 구조의 기초: MemGPT와 Mem0 분석

LLM의 고정된 컨텍스트 윈도우 한계를 극복하기 위해 운영체제의 가상 메모리 개념을 도입한 MemGPT와 그래프 구조로 장기 기억을 관리하는 Mem0의 아키텍처를 분석한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

MemGPT는 OS의 메모리 계층 구조를 LLM에 이식하여 자율적인 컨텍스트 관리를 가능케 하며, Mem0는 그래프 기반 모델링을 통해 개체 간 관계와 시간적 맥락 추론에 강점을 가진다. 두 방식 모두 단순 RAG 대비 장기 대화의 일관성과 추론 정확도에서 우수한 성능을 입증했다.

배경

LLM 기반 에이전트가 장기적인 사용자 상호작용에서 일관성을 유지하기 위해서는 고정된 컨텍스트 윈도우를 넘어서는 효율적인 메모리 시스템이 필수적이다.

대상 독자

AI 에이전트 시스템을 설계하거나 LLM의 컨텍스트 제한 문제를 해결하려는 개발자 및 연구자

의미 / 영향

이 연구들은 LLM 에이전트가 단순한 챗봇을 넘어 실제 운영 환경에서 지속 가능한 지능형 비서로 진화할 수 있는 아키텍처를 제시했다. 개발자들은 OS급 메모리 관리 기법이나 그래프 기반 지식 관리를 도입함으로써 API 비용과 응답 속도를 최적화하는 동시에 초개인화된 에이전트 서비스를 구축할 수 있다.

챕터별 상세

00:00

LLM 에이전트에서 메모리가 필요한 이유

LLM 기반 에이전트는 일회성 답변을 넘어 사용자와 장기적으로 상호작용하는 방향으로 확장되고 있다. 그러나 LLM은 고정된 컨텍스트 윈도우를 사용하므로 정보가 이 범위를 벗어나면 과거의 대화 맥락이나 사용자 선호를 잊어버리는 문제가 발생한다. 단순히 컨텍스트 길이를 늘리는 것은 연산 비용의 기하급수적 증가와 어텐션 메커니즘의 성능 저하를 초래하므로, 정보를 선택적으로 저장하고 검색하는 별도의 메모리 시스템이 필요하다.

05:03

MemGPT: 운영체제 개념을 도입한 메모리 관리

MemGPT는 긴 컨텍스트 문제를 운영체제의 가상 메모리 관리 문제로 재해석했다. LLM의 컨텍스트 윈도우를 주 기억장치(RAM)로, 외부 저장소를 디스크로 간주하는 계층적 구조를 제안했다. 에이전트는 Function Calling을 통해 사용자 개입 없이도 메인 컨텍스트와 외부 메모리 사이에서 데이터를 스스로 이동시키며 대화 맥락을 관리한다. 이를 통해 물리적 한계를 넘어서는 사실상의 무한한 컨텍스트 활용이 가능해진다.

가상 메모리는 물리적 메모리보다 큰 프로세스를 실행하기 위해 디스크의 일부를 메모리처럼 사용하는 OS 기술이다.

06:32

MemGPT의 메모리 계층 구조와 큐 관리

MemGPT의 메모리는 Main Context와 External Context로 나뉜다. Main Context는 읽기 전용인 System Instructions, 핵심 사실을 저장하는 Working Context, 최근 대화 이력을 담는 FIFO Queue로 구성된다. FIFO Queue가 가득 차면 Queue Manager가 경고를 보내고, 에이전트는 중요한 정보를 요약하여 Working Context나 외부의 Archival Storage로 옮긴 뒤 큐의 일부를 삭제하여 공간을 확보한다. 이 과정은 재귀적 요약을 통해 과거 내용의 핵심을 유지하도록 설계되었다.

12:07

이벤트 기반 제어 흐름과 함수 체이닝

MemGPT는 사용자 입력뿐만 아니라 시스템 메시지, 타이머 등 다양한 이벤트에 의해 트리거되는 이벤트 기반 제어 흐름을 따른다. 특히 'Function Chaining' 기술을 통해 여러 함수를 연속적으로 실행할 수 있다. 예를 들어 검색 결과가 많아 여러 페이지로 나뉜 경우, 에이전트는 특수 플래그를 사용하여 다음 페이지를 계속 읽어오는 루프를 스스로 수행한다. 이는 에이전트가 단순 질의응답 모델을 넘어 자율적으로 작업을 완수하게 만든다.

16:16

MemGPT 성능 평가 결과

MemGPT는 대화 일관성과 문서 분석 두 영역에서 평가되었다. 과거 세션의 지식이 필요한 Deep Memory Retrieval 태스크에서 GPT-4 기반 MemGPT는 93.4%의 정확도를 기록하여 단순 요약 방식(32.1%)을 압도했다. 다중 문서 QA에서도 컨텍스트 제한 때문에 정답을 놓치는 기존 방식과 달리, 외부 저장소에서 필요한 정보를 반복 검색하여 가져오는 방식으로 높은 정확도를 유지했다. 이는 계층적 메모리 구조가 장기 기억 유지에 효과적임을 증명한다.

19:07

Mem0: 확장 가능한 장기 기억 시스템

Mem0는 대화에서 중요한 정보를 추출하고 지식 베이스에 통합하여 관리하는 시스템이다. 메모리 추출(Extraction)과 메모리 갱신(Update)을 담당하는 전용 모듈을 도입했다. 대화가 발생할 때마다 LLM이 새로운 정보를 추출하고, 기존 메모리와 비교하여 추가(Add), 갱신(Update), 삭제(Delete), 유지(No-op) 중 적절한 연산을 수행한다. 이를 통해 정보의 중복을 방지하고 최신 상태의 사용자 프로필과 지식을 유지한다.

22:07

Mem0의 그래프 기반 메모리 아키텍처

Mem0는 메모리를 노드(Entity)와 엣지(Relation)로 이루어진 그래프 구조로 저장하는 방식을 제안했다. 각 노드는 개체 타입, 임베딩 벡터, 메타데이터를 포함하며, 엣지는 개체 간의 의미론적 관계를 나타낸다. 새로운 정보가 들어오면 기존 그래프의 노드들과 임베딩 유사도를 비교하여 매칭 여부를 판단한다. 그래프 구조는 개체 간의 복잡한 연결 관계를 명시적으로 표현하므로 심화된 추론 지원이 가능하다.

26:18

Mem0의 이중 검색 메커니즘

Mem0는 두 가지 검색 방식을 결합하여 정확도를 높였다. 첫째는 'Entity-centric Retrieval'로, 질의에서 핵심 개체를 식별한 뒤 그래프 상에서 해당 노드와 연결된 주변 관계(Sub-graph)를 탐색한다. 둘째는 'Semantic Triplet Retrieval'로, 질의 전체를 임베딩하여 저장된 모든 관계 트리플렛과 유사도를 비교한다. 이 이중 구조를 통해 특정 개체 중심의 질문과 개념적인 질문 모두에 효과적으로 대응할 수 있다.

30:39

Mem0와 기존 방식의 성능 비교

Mem0는 LOCOMO 데이터셋을 통해 RAG 및 Full-context 방식과 비교되었다. 실험 결과 Mem0는 단순 RAG보다 높은 성능을 보였으며, 특히 시간적 맥락이 중요한 'Temporal Reasoning' 태스크에서 그래프 구조의 강점이 두드러졌다. 모든 대화를 컨텍스트에 넣는 방식은 정확도는 높지만 지연 시간(Latency)이 매우 긴 반면, Mem0는 필요한 메모리만 선택적으로 검색하여 지연 시간을 획기적으로 줄이면서도 경쟁력 있는 품질을 유지했다.

용어 해설

Context Window: — LLM이 한 번에 처리할 수 있는 토큰의 최대 범위를 의미한다. 이 범위를 넘어서는 정보는 모델이 직접 참조할 수 없어 장기 대화에서 정보 손실이 발생한다. 에이전트의 기억력을 결정하는 핵심적인 물리적 한계 요소이다.
Virtual Memory: — 운영체제에서 물리적 메모리 한계를 극복하기 위해 디스크 공간을 메모리처럼 사용하는 기술이다. MemGPT는 이 개념을 차용하여 LLM의 컨텍스트 윈도우를 메인 메모리로, 외부 저장소를 디스크로 간주하여 관리한다.
Function Calling: — LLM이 텍스트 생성 중 특정 도구나 함수를 실행해야 한다고 판단하여 구조화된 인자를 출력하는 기능이다. 에이전트가 외부 메모리에 데이터를 쓰거나 읽어오는 동작을 스스로 제어할 수 있게 하는 핵심 메커니즘이다.
Graph Database: — 데이터를 노드와 엣지로 표현하여 개체 간의 관계를 저장하는 방식이다. Mem0는 메모리를 그래프 구조로 저장함으로써 개체 간의 복잡한 연결 관계와 시간 순서에 따른 맥락 추론 성능을 높인다.

언급된 리소스

논문MemGPT: Towards LLMs as Operating Systems

논문Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 04. 13.수집 2026. 04. 13.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.