SuperLocalMemory V3.3: 살아있는 뇌 — 생물학적 망각, 인지적 양자화 및 제로 LLM 에이전트 메모리 시스템을 위한 다채널 검색

기존 AI 에이전트 메모리는 데이터를 단순히 벡터 데이터베이스에 저장만 할 뿐, 인간처럼 중요하지 않은 정보를 잊거나 지식을 요약하여 내재화하는 능력이 부족했다. 이 논문은 로컬 환경에서 작동하며 생물학적 망각 곡선과 다단계 양자화 기법을 도입해 메모리 효율성과 검색 정확도를 동시에 개선하는 새로운 아키텍처를 제시한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

FRQAD: 양자화 오차를 고려한 새로운 거리 측정 지표

Fisher-Rao Quantization-Aware Distance(FRQAD)는 임베딩의 양자화 수준에 따른 노이즈를 가우시안 분포의 분산으로 처리하여, 정밀도가 낮은 데이터보다 높은 데이터를 우선적으로 검색하도록 설계됐다. 실험 결과 혼합 정밀도 환경에서 100%의 검색 정확도를 기록했다.

에빙하우스 적응형 망각 및 생애주기 기반 양자화

기억의 접근 빈도와 중요도에 따라 기억 강도를 계산하고, 시간이 지남에 따라 32비트에서 2비트까지 단계적으로 정밀도를 낮추는 압축 메커니즘을 구현했다. 이를 통해 자주 쓰이지 않는 기억은 자연스럽게 희미해지며 저장 공간을 최적화한다.

7채널 인지 검색 파이프라인

Semantic, Keyword, Entity Graph, Temporal, Spreading Activation, Consolidation, Hopfield Associative 등 7가지 병렬 채널을 통해 다각도로 정보를 검색한다. 특히 복잡한 Multi-hop 질의에서 기존 대비 23.8%p 성능 향상을 보였다.

메모리 파라미터화 및 Soft Prompt 생성

통합된 기억을 자연어 형태의 Soft Prompt로 변환하여 에이전트의 행동을 설정한다. 이는 모델 가중치에 접근할 수 없는 API 기반 LLM에서도 추가 연산 비용 없이 장기 암묵적 기억(Long-Term Implicit Memory)을 구현할 수 있게 한다.

핵심 아이디어 이해하기

기존의 벡터 검색은 모든 임베딩이 동일한 정밀도와 중요도를 가진다고 가정하고 Cosine Similarity를 계산한다. 하지만 실제 환경에서는 최근에 생성된 정밀한 정보와 오래되어 압축된 정보가 섞여 있으며, 단순 거리 계산은 이 차이를 반영하지 못해 검색 품질이 저하된다.

이 논문은 임베딩을 단순한 점이 아니라 확률 분포(Gaussian)의 파라미터로 해석한다. 양자화가 많이 된 데이터일수록 분포의 분산(Variance)이 커지도록 설정하고, 정보 기하학 기반의 Fisher-Rao Geodesic을 사용하여 거리를 측정한다. 분산이 큰 데이터는 자연스럽게 검색 순위에서 밀려나게 되어, 모델은 더 확실하고 정밀한 정보를 먼저 참조하게 된다.

결과적으로 시스템은 인간의 뇌처럼 자주 사용하는 정보는 고해상도로 유지하고, 오래된 정보는 저해상도로 압축하거나 잊어버림으로써 무한히 늘어나는 데이터 속에서도 핵심 맥락을 놓치지 않는 효율적인 메모리 구조를 갖게 된다.

방법론

전체 시스템은 Interface, Engine, Storage의 3계층 구조로 설계됐다. Engine 계층의 핵심인 Encoding Pipeline은 사실 추출, 엔티티 분석, 감정 태깅을 거쳐 지식 그래프를 구축하고, Lifecycle Pipeline은 에빙하우스 망각 곡선에 따라 기억의 상태를 Active, Warm, Cold, Archive로 전이시킨다.

FRQAD 계산 시, 입력된 임베딩 θ와 비트 수 b에 대해 유효 분산 σ²_eff = σ²_obs * (32/b)^κ를 계산한다. [비트 수 b가 작아질수록 → (32/b) 값이 커져 분산 σ²_eff가 팽창하고 → Atkinson-Mitchell Geodesic 수식에 의해 거리가 멀어지는 효과를 얻어 → 정밀도가 낮은 기억이 하위권으로 밀려나는 의미]를 갖는다.

검색 시에는 7개의 채널에서 나온 결과를 Weighted Reciprocal Rank Fusion(RRF)으로 통합한다. 각 채널 c의 순위 rank_c(m)에 대해 Σ w_c * (1 / (k + rank_c(m)))을 계산한다. [각 채널의 가중치 w_c와 상수 k=15를 입력으로 → 역수 합산 연산을 수행해 → 최종 점수를 산출하고 → 여러 검색 관점이 균형 있게 반영된 순위를 결정하는 의미]를 지닌다.

관련 Figure

#2Chart
매일 접근하는 Hot 데이터는 높은 유지율을 유지하며 Polar4(4비트) 계층에 머무는 반면, 접근이 없는 Cold 데이터는 즉시 망각 임계값 아래로 떨어지는 것을 시각화한다. 이는 에빙하우스 망각 모델이 의도대로 작동함을 보여준다.
시간 경과에 따른 Hot, Warm, Cold 데이터의 평균 유지율(Retention) 곡선

주요 결과

LoCoMo 벤치마크의 Mode A(Zero-LLM) 환경에서 70.4%의 정확도를 달성했다. 이는 V3.2 베이스라인 대비 Multi-hop 질의에서 +23.8%p, Adversarial Reasoning에서 +12.7%p 향상된 수치다. 다만 단일 단계(Single-hop) 검색에서는 7채널 통합 과정의 복잡성으로 인해 정밀도가 일부 하락하는 트레이드오프가 관찰됐다.

FRQAD 지표는 혼합 정밀도 환경에서 고정밀 임베딩을 선호하는 정확도 100%를 기록하여 Cosine Similarity(85.6%)를 압도했다. 또한 4비트 양자화 시 Mean MSE는 1.603 * 10^-5 수준으로 매우 낮았으며, 2비트 압축 시에도 192배의 압축률 대비 안정적인 성능 저하(Graceful Degradation)를 보였다.

관련 Figure

#1Chart
FRQAD가 혼합 정밀도 환경에서 고정밀(f32) 임베딩을 100% 정확하게 식별해냄을 보여준다. 이는 양자화 노이즈를 분산으로 처리하는 방식이 단순 거리 계산보다 우월함을 입증한다.
Cosine Similarity, Fisher-Rao, FRQAD 간의 고정밀 임베딩 선호도 비교 차트

#3Chart
V3.3 R3 모델이 특히 Multi-hop과 Adversarial 카테고리에서 기존 모델들을 크게 앞지르는 성능을 보여준다. 7채널 검색 파이프라인이 복잡한 추론 작업에 효과적임을 뒷받침한다.
LoCoMo 벤치마크 카테고리별 V3.3 Baseline, V3.3 R3, Paper 2의 정확도 비교

기술 상세

시스템은 SQLite와 sqlite-vec을 기반으로 로컬 저장소를 운영하며, 모든 연산은 CPU에서 수행되도록 최적화됐다. 아키텍처의 핵심은 정보 기하학(Information Geometry)을 양자화 이론과 결합한 것이다. TurboQuant 알고리즘을 확장하여 데이터 독립적인 직교 회전(Random Orthogonal Rotation)을 통해 임베딩 좌표를 Beta 분포로 정렬하고 스칼라 양자화를 수행한다.

망각 메커니즘은 Fokker-Planck 방정식을 따르는 SDE(Stochastic Differential Equation)로 모델링되어 수렴성이 수학적으로 증명됐다. 기억 강도 S(m)은 접근 횟수, 중요도, 확인 횟수, 감정적 가중치의 로그 함수로 정의되며, 이는 인지 심리학의 간격 효과(Spacing Effect)를 재현한다. 또한 Bayesian Trust Framework를 통합하여 신뢰도가 낮은 에이전트가 생성한 기억은 3배 더 빠르게 망각되도록 설계됐다.

한계점

행동 학습을 위해 약 200개의 피드백 신호가 쌓이기 전까지는 고정된 채널 가중치를 사용하는 Cold-start 문제가 존재한다. 또한 2비트 극단적 압축 시에는 임베딩 품질이 유의미하게 저하되어 아카이브 용도로만 제한된다. 현재 자동화 파이프라인은 Claude Code에 최적화되어 있어 타 플랫폼 적용 시 추가적인 훅(Hook) 통합이 필요하다.

실무 활용

로컬 CPU 환경에서 작동하는 오픈소스 에이전트 메모리 시스템으로, 개인정보 보호가 중요한 코딩 에이전트나 장기 대화 시스템에 즉시 적용 가능하다.

Claude Code 등 CLI 기반 코딩 에이전트의 세션 간 컨텍스트 유지
로컬 LLM을 활용한 개인용 지식 베이스 및 비서 시스템
저사양 하드웨어(CPU 전용)에서의 효율적인 대규모 벡터 검색 엔진 구축

코드 공개 여부: 공개

코드 저장소 보기

키워드

LLM(대형 언어 모델)RAG(검색 증강 생성)Quantization(양자화)Information-Geometry(정보 기하학)Agent(에이전트)

SuperLocalMemory V3.3: 살아있는 뇌 — 생물학적 망각, 인지적 양자화 및 제로 LLM 에이전트 메모리 시스템을 위한 다채널 검색

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

FRQAD: 양자화 오차를 고려한 새로운 거리 측정 지표

에빙하우스 적응형 망각 및 생애주기 기반 양자화

7채널 인지 검색 파이프라인

메모리 파라미터화 및 Soft Prompt 생성

핵심 아이디어 이해하기

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

한계점

실무 활용

로컬 CPU 환경에서 작동하는 오픈소스 에이전트 메모리 시스템으로, 개인정보 보호가 중요한 코딩 에이전트나 장기 대화 시스템에 즉시 적용 가능하다.

Claude Code 등 CLI 기반 코딩 에이전트의 세션 간 컨텍스트 유지
로컬 LLM을 활용한 개인용 지식 베이스 및 비서 시스템
저사양 하드웨어(CPU 전용)에서의 효율적인 대규모 벡터 검색 엔진 구축

코드 공개 여부: 공개

코드 저장소 보기

키워드

LLM(대형 언어 모델)RAG(검색 증강 생성)Quantization(양자화)Information-Geometry(정보 기하학)Agent(에이전트)

SuperLocalMemory V3.3: 살아있는 뇌 — 생물학적 망각, 인지적 양자화 및 제로 LLM 에이전트 메모리 시스템을 위한 다채널 검색

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

SuperLocalMemory V3.3: 살아있는 뇌 — 생물학적 망각, 인지적 양자화 및 제로 LLM 에이전트 메모리 시스템을 위한 다채널 검색

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드