핵심 요약
기존 AI 에이전트의 메모리 시스템은 단순한 유사도 검색과 임의적인 데이터 삭제 방식에 의존하여 장기 대화에서 모순을 발견하거나 중요 정보를 유지하는 데 한계가 있었다. 이 논문은 정보 기하학과 대수 위상학을 도입하여 클라우드 의존성 없이도 데이터의 통계적 정밀도에 따라 검색하고 모순을 자동으로 감지하는 신뢰할 수 있는 로컬 메모리 체계를 구축했다. 이는 특히 데이터 주권이 중요한 기업 환경에서 EU AI Act와 같은 규제를 준수하면서도 고성능 에이전트를 운영할 수 있는 실질적인 대안을 제시한다.
왜 중요한가
기존 AI 에이전트의 메모리 시스템은 단순한 유사도 검색과 임의적인 데이터 삭제 방식에 의존하여 장기 대화에서 모순을 발견하거나 중요 정보를 유지하는 데 한계가 있었다. 이 논문은 정보 기하학과 대수 위상학을 도입하여 클라우드 의존성 없이도 데이터의 통계적 정밀도에 따라 검색하고 모순을 자동으로 감지하는 신뢰할 수 있는 로컬 메모리 체계를 구축했다. 이는 특히 데이터 주권이 중요한 기업 환경에서 EU AI Act와 같은 규제를 준수하면서도 고성능 에이전트를 운영할 수 있는 실질적인 대안을 제시한다.
핵심 기여
Fisher Information Metric 기반 검색
Cosine Similarity 대신 임베딩 차원별 통계적 정밀도를 가중치로 사용하는 Fisher-Rao 거리를 도입하여 불확실성을 고려한 정밀한 메모리 검색을 구현했다.
Riemannian Langevin Dynamics를 활용한 수명 주기 관리
수동으로 설정하던 데이터 감쇠(decay) 대신 통계적 다양체 위의 확률적 동역학을 적용하여 정보 가치가 높은 메모리는 유지하고 낮은 메모리는 자연스럽게 잊히는 평형 상태를 유도했다.
Sheaf Cohomology를 이용한 모순 감지
메모리 저장소를 Cellular Sheaf로 모델링하고 제1 코호몰로지 클래스를 계산하여 서로 다른 맥락 간의 논리적 충돌을 대수적으로 감지하는 최초의 보증 메커니즘을 제공했다.
Zero-LLM 아키텍처 및 규제 준수
모든 검색과 수명 주기 연산을 로컬 CPU에서 수행하는 설계를 통해 개인정보 유출 없이 EU AI Act(Regulation 2024/1689)를 완벽히 준수하는 엔터프라이즈급 성능을 입증했다.
핵심 아이디어 이해하기
기존의 에이전트 메모리는 Embedding 벡터 간의 각도만을 측정하는 Cosine Similarity에 의존한다. 하지만 모든 차원이 동일하게 중요한 것은 아니며, 어떤 차원은 명확한 의미를 담고 있는 반면 어떤 차원은 노이즈에 불과할 수 있다. 이로 인해 메모리가 쌓일수록 검색 결과에 노이즈가 섞이고 성능이 저하되는 '랭킹 노이즈' 문제가 발생한다.
SLM-V3는 각 임베딩 차원의 신뢰도를 통계적으로 측정하는 Fisher Information Metric을 도입한다. 이는 마치 안개가 낀 길에서 선명한 표지판(낮은 분산)에 더 높은 가중치를 두어 길을 찾는 것과 같다. 수학적으로는 임베딩을 단순한 점이 아니라 확률 분포로 취급하고, 이 분포들 사이의 자연스러운 거리인 Fisher-Rao Geodesic을 계산하여 검색의 정확도를 높인다.
또한, 메모리의 삭제 여부를 결정할 때 단순히 시간이 지났다고 지우는 것이 아니라, Riemannian Langevin Dynamics라는 물리적 원리를 적용한다. 정보량이 많고 자주 참조되는 데이터는 중심부에 머물고, 가치가 낮은 데이터는 다양체의 경계로 밀려나 자연스럽게 잊히도록 설계하여 시스템이 스스로 최적의 기억 상태를 유지하게 한다.
방법론
전체 시스템은 4개의 병렬 채널(Semantic, BM25, Entity Graph, Temporal)로 구성된 하이브리드 검색 아키텍처를 채택한다. 각 채널에서 나온 결과는 Weighted Reciprocal Rank Fusion(WRRF)을 통해 통합되며, 최종적으로 Cross-encoder를 통해 재정렬(Reranking)된다.
Semantic 채널에서는 Fisher-Rao 거리를 사용한다. [두 분포의 평균 차이와 분산 값을 입력으로] → [Mahalanobis 거리와 유사한 형태의 분산 가중 연산을 수행하여] → [차원별 거리의 합산 결과인 dFR을 얻고] → [이 값이 작을수록 두 메모리가 통계적으로 유사함을 의미한다.] 이 연산은 O(d) 시간 복잡도로 수행되어 기존 Cosine Similarity와 동일한 효율성을 유지한다.
메모리 수명 주기는 Poincaré Ball 위에서 정의된 확률 미분 방정식(SDE)으로 관리된다. [현재 메모리의 위치 ξ와 중요도 함수 U를 입력으로] → [확률적 노이즈 dW와 리만 기하학적 보정 항을 더하는 연산을 수행하여] → [다음 시점의 위치 ξ(t+1)을 얻고] → [이 위치가 다양체의 중심에 가까울수록 활성 상태의 기억임을 의미한다.] 경계값 ∥ξ∥ → 1에 가까워지면 자동으로 아카이브 상태로 전환된다.
일관성 검증을 위해 메모리 저장소를 그래프 G=(V, E) 위의 Cellular Sheaf F로 모델링한다. [각 맥락의 임베딩 f(v)를 입력으로] → [인접한 맥락 간의 차이를 측정하는 Coboundary 연산 δ를 수행하여] → [스칼라 값인 모순 점수 κ를 얻고] → [이 값이 임계치를 넘으면 두 기억 사이에 논리적 충돌이 있음을 의미한다.] 이는 H¹(F) ≠ 0인 상태를 대수적으로 식별하는 과정이다.
주요 결과
LoCoMo 컨버세이셔널 메모리 벤치마크에서 수학적 레이어를 적용했을 때 기존 엔지니어링 베이스라인 대비 평균 12.7%p의 성능 향상을 기록했다. 특히 복잡한 추론이 필요한 어려운 대화 세트에서는 최대 19.9%p의 향상 폭을 보였다.
클라우드 의존성이 전혀 없는 Zero-LLM 설정(Mode A)에서 75%의 검색 정확도를 달성했다. 이는 클라우드 LLM을 사용하는 기존 상용 시스템인 Mem0(64.2%)보다 높은 수치로, 수학적 기반이 신경망의 언어 이해 능력을 일부 대체할 수 있음을 입증했다.
Ablation Study 결과, Cross-encoder 재정렬이 제거될 때 성능이 30.7%p 하락하여 가장 큰 기여도를 보였으며, Fisher Metric 제거 시 10.8%p, BM25 제거 시 6.5%p 하락이 관찰되어 각 구성 요소의 상호 보완적 역할을 확인했다.
실무 활용
데이터 보안이 극도로 중요한 금융, 의료, 법률 분야의 엔터프라이즈 AI 에이전트 구축에 즉시 활용 가능하다. 클라우드 API 호출 없이 로컬 CPU만으로 고성능 메모리 검색과 모순 감지가 가능하여 운영 비용 절감과 규제 대응을 동시에 달성할 수 있다.
- 개인정보 유출 우려가 없는 사내 보안 문서 기반 로컬 RAG 시스템 구축
- 장기 프로젝트 수행 중 발생하는 설정값이나 요구사항의 논리적 충돌 자동 감지
- 수만 개의 메모리가 누적되는 환경에서도 성능 저하 없이 중요 정보를 유지하는 자율 에이전트 운영
- EU AI Act 등 엄격한 데이터 주권 규제를 준수해야 하는 유럽 시장용 AI 서비스 개발
기술 상세
SLM-V3는 임베딩 벡터를 확정적인 점이 아닌 대각 공분산 행렬을 가진 가우시안 분포로 모델링한다. Fisher-Rao 거리는 충분 통계량(Sufficient Statistics)에 대해 불변하는 유일한 리만 메트릭임을 수학적으로 보장하며, 이는 고차원 임베딩 공간에서의 랭킹 노이즈 문제를 이론적으로 해결한다.
메모리 수명 주기는 리만 다양체 위의 Fokker-Planck 방정식을 통해 정적 분포(Stationary Distribution)의 존재와 유일성을 증명했다. 이는 수동 튜닝 없이도 시스템이 통계적 평형 상태로 수렴하게 하며, 하이퍼볼릭 기하학의 특성을 이용해 무한한 '망각 공간'을 제공함으로써 메모리 폭증을 억제한다.
Sheaf Cohomology 프레임워크는 로컬 데이터가 글로벌하게 확장될 수 없는 지점을 대수적으로 식별한다. 제1 코호몰로지 클래스 H¹(F)가 0이 아님은 로컬 맥락 간의 불일치를 의미하며, 이를 통해 에이전트가 잘못된 정보를 바탕으로 추론하는 것을 사전에 방지한다.
구현 측면에서는 SQLite를 백엔드로 사용하며 모든 연산을 CPU 최적화했다. 768차원 임베딩(Nomic)과 Cross-encoder(BGE)를 조합하여 로컬 환경에서도 SOTA급 성능을 내도록 설계되었으며, 데이터 격리를 위한 멀티 테넌트 아키텍처를 지원한다.
한계점
현재 시스템은 대각 공분산(Diagonal Covariance)을 가정하여 계산 복잡도를 O(d)로 유지하고 있으나, 차원 간의 상관관계를 고려하는 전체 공분산(Full Covariance)을 적용할 경우 O(d³)의 비용이 발생하여 고차원에서는 비효율적일 수 있다. 또한, 현재 평가는 LoCoMo라는 단일 벤치마크에 집중되어 있어 멀티 유저나 멀티 프로젝트 환경에서의 실질적인 성능 검증이 추가로 필요하다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료