Memoryport: 모든 LLM을 위한 영구적이고 검색 가능한 메모리 시스템

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Memoryport는 LLM이 과거의 모든 대화 내역을 영구적으로 기억하고 필요할 때 즉시 검색할 수 있게 해주는 로컬 우선 오픈소스 시스템이다. Arweave 블록체인을 활용해 데이터를 영구 보관하고, LanceDB를 통해 수억 개의 토큰 환경에서도 300ms 이내의 빠른 로컬 벡터 검색을 지원한다. Claude Code, Cursor, Ollama 등 주요 AI 도구와 프록시 방식으로 연동되어 별도의 코드 수정 없이도 기존 워크플로우에 메모리 기능을 추가할 수 있다. AES-256-GCM 암호화를 적용하여 데이터 보안을 유지하면서도 기기 변경 시 Arweave에서 인덱스를 재구축하는 복구 기능을 제공한다.

배경

Rust 1.91+, Node.js 18+, Ollama (로컬 임베딩 사용 시), 기본적인 LLM API 및 프록시 개념

대상 독자

로컬 환경에서 LLM의 장기 기억력을 강화하고 싶은 개발자 및 RAG 시스템 설계자

의미 / 영향

Memoryport는 LLM의 컨텍스트 윈도우 한계를 외부 메모리 시스템으로 해결하며, 특히 Arweave를 통한 영구 저장은 데이터 소유권과 지속성을 보장하는 새로운 표준을 제시한다. 이는 비용 효율적인 로컬 RAG 구축을 가속화할 것이다.

섹션별 상세

기존 LLM 서비스는 세션이 종료되면 맥락을 잊어버리는 휘발성 메모리 문제를 가지고 있었다. Memoryport는 모든 대화 턴을 캡처하여 LanceDB에 로컬 저장하고 Arweave에 암호화된 상태로 영구 백업한다. 이를 통해 사용자는 기기를 이동하거나 데이터를 삭제하더라도 과거의 모든 지식과 선호도를 유지할 수 있다. AI가 사용자의 장기적인 맥락을 이해하게 함으로써 진정한 개인화 비서 구현이 가능해진다.

대규모 데이터셋에서도 실시간 응답성을 보장하기 위해 고성능 벡터 검색 아키텍처를 채택했다. 5억 개의 토큰(약 133만 개의 청크)을 대상으로 한 브루트 포스 검색에서 p50 지연 시간 294ms를 기록했다. 근사 인덱싱 없이 100% 재현율을 달성하여 정보 손실 없는 정확한 맥락 추출이 이루어진다. 로컬 임베딩 모델인 nomic-embed-text를 활용해 외부 API 호출 비용과 지연을 최소화했다.

컨텍스트 공간 크기에 따른 쿼리 지연 시간 변화를 보여주는 선 그래프 — Chart100K에서 500M 토큰까지 컨텍스트가 증가함에 따라 지연 시간이 어떻게 변하는지 보여준다. 500M 토큰에서도 294ms라는 낮은 지연 시간을 유지하며, 500ms 목표치보다 훨씬 빠른 성능을 입증한다.

다양한 LLM 도구와의 호환성을 위해 멀티 프로토콜 API 프록시 서버를 운영한다. 단일 포트(9191)에서 Anthropic, OpenAI, Ollama의 API 형식을 모두 수용하여 투명하게 메시지를 가로채고 맥락을 주입한다. Claude Code나 Cursor 같은 개발 도구에서 환경 변수 설정만으로 즉시 메모리 기능을 활성화할 수 있다. MCP 서버 지원을 통해 에이전트가 직접 메모리 도구를 호출하여 능동적으로 정보를 검색하는 구조를 갖췄다.

bash

curl -fsSL https://memoryport.ai/install | sh
uc init

Memoryport CLI 설치 및 초기 설정 마법사 실행 명령어

bash

OLLAMA_HOST=http://127.0.0.1:9191 ollama run llama3

Ollama를 Memoryport 프록시를 통해 실행하여 대화를 자동 캡처하는 방법

검색 효율을 높이기 위해 단일 턴(Single-turn)과 멀티 턴(Multi-turn) 두 가지 검색 모드를 제공한다. 단일 턴 모드는 프록시가 질문과 관련된 맥락을 자동으로 주입하여 LLM에 전달하는 방식이다. 멀티 턴 모드는 LLM이 스스로 검색 도구를 사용하여 필요한 정보를 찾을 때까지 반복적으로 쿼리하는 에이전트 방식을 취한다. 복잡한 질문에 대해 여러 소스의 정보를 조합하여 답변해야 하는 경우 멀티 턴 방식이 더 높은 정확도를 보인다.

toml

[retrieval]
max_context_tokens = 50000
similarity_top_k = 50
recency_window = 20
gating_enabled = true

검색 성능 및 게이팅 설정을 포함한 Memoryport 구성 파일 예시

개인정보 보호를 위해 강력한 로컬 암호화 및 논리적 삭제 메커니즘을 구현했다. 모든 데이터는 AES-256-GCM 방식으로 암호화되며 암호화 키는 사용자의 로컬 환경에만 저장된다. Arweave에 저장된 영구 데이터는 키가 없으면 해독이 불가능하며, 삭제 요청 시 로컬 키만 파괴하여 데이터를 영구적으로 읽을 수 없게 만든다. 이는 영구 저장소의 특성과 사용자의 잊혀질 권리를 기술적으로 조화시킨 설계이다.

실무 Takeaway

RAG 시스템 구축 시 LanceDB와 Arweave를 결합하면 로컬의 빠른 검색 속도와 클라우드의 영구적 데이터 보존성을 동시에 확보할 수 있다.
3단계 게이팅(Gating) 시스템을 적용하여 인사말이나 단순 명령어를 필터링함으로써 벡터 인덱스의 품질을 높이고 불필요한 검색 지연을 방지해야 한다.
LLM 에이전트가 스스로 메모리를 검색하게 하는 멀티 턴 방식은 단일 턴 검색보다 복잡한 맥락 이해가 필요한 작업에서 약 20% 이상의 성능 향상을 기대할 수 있다.

언급된 리소스

문서Memoryport Website

문서AMP Specification

GitHubMemoryport GitHub Repository