핵심 요약
기존의 AI 에이전트 메모리 시스템은 복잡한 지식 그래프와 다단계 LLM 추출 과정을 거치며 높은 비용과 지연 시간을 초래했습니다. Memanto는 정보 이론 기반의 벡터 압축 기술을 활용하여 지식 그래프 없이도 더 높은 정확도를 제공하며, 인덱싱 지연이 전혀 없는 실시간 메모리 업데이트를 가능하게 합니다.
왜 중요한가
기존의 AI 에이전트 메모리 시스템은 복잡한 지식 그래프와 다단계 LLM 추출 과정을 거치며 높은 비용과 지연 시간을 초래했습니다. Memanto는 정보 이론 기반의 벡터 압축 기술을 활용하여 지식 그래프 없이도 더 높은 정확도를 제공하며, 인덱싱 지연이 전혀 없는 실시간 메모리 업데이트를 가능하게 합니다.
핵심 기여
제로 오버헤드 인덱싱 아키텍처
Moorcheh의 정보 이론 검색 엔진을 활용하여 LLM을 통한 개체 추출이나 지식 그래프 구축 과정 없이 데이터를 즉시 검색 가능한 상태로 저장한다. 이를 통해 인덱싱 지연 시간을 10ms 미만으로 단축하고 운영 복잡성을 제거했다.
13가지 타입 지정 의미론적 메모리 스키마
인지 과학의 메모리 분류 체계를 기반으로 fact, preference, decision 등 13가지 카테고리로 메모리를 분류하여 저장한다. 각 타입별로 서로 다른 우선순위와 감쇠 신호를 적용하여 검색의 정밀도를 높였다.
자동 충돌 해결 및 시계열 버전 관리
새로운 정보가 기존 메모리와 모순될 경우 이를 감지하고 에이전트에게 알리는 메커니즘을 갖추고 있다. 또한 As-of 쿼리를 지원하여 특정 시점의 메모리 상태를 복원하거나 변경 사항을 추적할 수 있는 비파괴적 버전 관리를 수행한다.
핵심 아이디어 이해하기
전통적인 RAG 시스템은 고차원 벡터 간의 각도를 계산하는 Cosine Similarity에 의존하지만, 이는 데이터가 늘어날수록 검색 정확도가 떨어지고 인덱싱에 많은 시간이 소요되는 한계가 있다. 특히 에이전트가 실시간으로 대화하며 정보를 저장하고 즉시 꺼내 써야 하는 상황에서 기존의 HNSW 인덱스 방식은 데이터 반영 속도가 느려 병목 현상을 일으킨다.
Memanto는 이를 해결하기 위해 고차원 부동 소수점 벡터를 정보 손실 없이 32배 압축된 이진(Binary) 형태로 변환하는 정보 이론적 접근을 취한다. 이는 단순히 기하학적 거리를 재는 것이 아니라, 현재 쿼리의 불확실성을 가장 많이 해소해 줄 수 있는 메모리 조각을 찾는 정보 이론적 거리 측정 방식을 사용한다.
결과적으로 에이전트는 복잡한 지식 그래프를 유지보수하지 않고도 단 한 번의 쿼리만으로 필요한 정보를 정확하게 찾아낼 수 있다. 이는 LLM이 문맥 내에서 충분히 추론할 수 있도록 풍부하고 정제된 원시 데이터를 제공하는 것이 복잡한 그래프 구조를 미리 설계하는 것보다 효율적이라는 직관에 기반한다.
방법론
Memanto의 핵심은 Moorcheh Foundation 엔진의 세 가지 알고리즘 혁신에 있다. 첫째, Maximally Informative Binarization(MIB)은 고차원 임베딩을 이진 표현으로 압축하여 검색 신호를 보존하면서도 연산량을 획기적으로 줄인다. [고차원 부동 소수점 벡터 입력 → MIB 압축 연산 → 32배 압축된 이진 벡터 출력 → 메모리 사용량 및 연산 속도 최적화]
둘째, Efficient Distance Metric(EDM)은 단순 기하학적 근접도가 아닌 정보 이론적 거리 측정치를 사용한다. [쿼리 벡터와 메모리 청크 입력 → EDM 거리 계산 → 불확실성 감소량 수치 출력 → 쿼리 맥락에 가장 적합한 정보 식별]
셋째, Information Theoretic Score(ITS)를 통해 0에서 1 사이의 정규화된 관련성 점수를 산출한다. 이를 통해 고정된 개수(Top-k)가 아닌 임계값 기반의 결정론적 검색을 수행한다. [계산된 거리 값 입력 → ITS 정규화 연산 → 0~1 사이의 신뢰도 점수 출력 → 임계값 이상의 유효한 메모리만 선별]
주요 결과
LongMemEval 벤치마크에서 89.8%의 정확도를 기록하며 기존의 지식 그래프 기반 시스템인 Mem0(66.9%)나 Zep(71.2%)을 크게 앞질렀다. 특히 단일 세션 어시스턴트 카테고리에서는 100%의 정확도를 달성했으며, 지식 업데이트 항목에서도 93.6%의 높은 성능을 보였다.
LoCoMo 벤치마크에서도 87.1%의 정확도를 기록하여 벡터 전용 아키텍처 중 가장 높은 성능을 입증했다. 이는 복잡한 다단계 쿼리나 그래프 탐색 없이 단일 RAG 쿼리만으로 달성한 결과라는 점에서 효율성을 입증한다.
운영 효율성 측면에서 Memanto는 인덱싱 지연 시간을 10ms 미만으로 유지하며, 쓰기 시 LLM 호출 횟수를 0으로 줄였다. 이는 기존 시스템들이 쓰기당 2회 이상의 LLM 호출과 수 초의 지연 시간을 갖는 것과 대조적이며, 일일 1만 건의 연산을 수행할 때 운영 비용을 기존 대비 약 70~80% 절감할 수 있음을 확인했다.
기술 상세
Memanto는 FastAPI 기반의 로컬 서비스로 설계되었으며, /remember, /recall, /answer라는 세 가지 주요 엔드포인트를 제공한다. 백엔드 구조는 공유 서비스 레이어와 Moorcheh.ai 클라우드 레이어로 나뉘며, 클라우드 레이어에서 제로 인덱싱 의미론적 데이터베이스와 에이전트 최적화 RAG 파이프라인이 작동한다.
기존의 HNSW(Hierarchical Navigable Small World) 방식이 갖는 인덱싱 지연 문제를 해결하기 위해 데이터 저장 즉시 검색이 가능한 구조를 채택했다. 이는 엄격한 스키마를 강제하는 지식 그래프와 달리, 13가지 의미론적 카테고리를 통해 데이터에 구조를 부여하면서도 검색 시점에는 LLM의 문맥 추론 능력을 극대화할 수 있도록 원시 데이터를 효율적으로 전달하는 데 집중한다.
충돌 해결 메커니즘은 동일한 네임스페이스 내에서 의미론적으로 상충하는 메모리가 감지될 때 작동하며, supersede(교체), retain(유지), annotate(주석 추가)의 세 가지 옵션을 제공하여 데이터의 일관성을 유지한다. 이는 장기 실행 에이전트에서 발생하는 '메모리 오염(Memory Poisoning)' 현상을 방지하는 핵심 기술이다.
한계점
현재 Memanto는 대화형 설정에 최적화되어 있어 연구 에이전트나 코드 생성, 다중 에이전트 협업과 같은 비대화형 워크플로에서의 성능은 아직 검증되지 않았다. 또한 메모리 타입 지정이 현재는 사용자 입력 시점에 수동으로 이루어져야 하며, 자동 타입 지정 기능은 향후 업데이트 예정이다.
실무 활용
실시간 상호작용이 중요하고 메모리 업데이트가 빈번한 프로덕션 환경의 AI 에이전트 시스템에 즉시 적용 가능하다.
- 사용자의 과거 선호도와 변경된 일정을 실시간으로 반영해야 하는 개인 비서 에이전트
- 수천 개의 문서를 실시간으로 인덱싱하고 즉시 질의응답을 수행해야 하는 법률/금융 분석 도구
- 장기적인 대화 맥락을 유지하면서 정보 간의 모순을 관리해야 하는 고객 상담 챗봇
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.