EverMem 스타일의 영구 메모리 에이전트 OS 구축 가이드: FAISS와 SQLite를 활용한 장단기 메모리 구현

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

대형 언어 모델 기반 에이전트의 한계인 휘발성 메모리를 해결하기 위해 단기 메모리(STM)와 장기 메모리(LTM)를 결합한 EverMem 스타일의 아키텍처를 제안한다. FAISS를 이용한 시맨틱 검색과 SQLite를 이용한 메타데이터 저장을 병행하여 에이전트가 문맥에 맞는 과거 정보를 소환할 수 있게 한다. 특히 중요도 점수 산출과 주기적인 메모리 압축(Consolidation) 로직을 통해 무한히 확장 가능한 메모리 관리 체계를 구현한다. 이를 통해 에이전트는 단순한 챗봇을 넘어 사용자의 선호와 과거 결정을 기억하는 지능형 비서로 진화한다.

배경

Python 프로그래밍 기초, 벡터 임베딩 및 유사도 검색 개념, SQLite 기본 쿼리 지식, Hugging Face Transformers 라이브러리 사용 경험

대상 독자

LLM 에이전트의 기억력과 일관성을 개선하고자 하는 AI 엔지니어 및 연구자

의미 / 영향

이 아키텍처는 에이전트가 단순한 일회성 도구가 아니라 사용자와 함께 성장하는 '개인화된 OS' 역할을 할 수 있음을 시사한다. 특히 온디바이스나 로컬 환경에서도 FAISS와 SQLite 같은 경량 도구로 강력한 메모리 시스템을 구축할 수 있다는 실무적 가치를 제공한다.

섹션별 상세

STM과 LTM의 하이브리드 구조를 채택하여 최근 대화 내역과 FAISS 벡터 인덱스에 저장된 장기 기억을 동시에 참조한다. 사용자의 질문이 들어오면 FAISS를 통해 가장 유사한 과거 기억을 추출하여 프롬프트에 주입함으로써 일관된 답변을 유도한다.

python

def add_memory(self, role: str, text: str, meta: Optional[Dict[str, Any]] = None) -> str:
    // ...(중략)
    conn = sqlite3.connect(self.db_path)
    cur = conn.cursor()
    cur.execute(
        "INSERT OR REPLACE INTO memories (mid, role, text, created_ts, importance, tokens_est, meta_json) VALUES (?, ?, ?, ?, ?, ?, ?)",
        (mid, role, text, created_ts, importance, tokens_est, json.dumps(meta, ensure_ascii=False)),
    )
    conn.commit()
    conn.close()
    vec = self._embed([text])
    fid = self.next_faiss_id
    self.next_faiss_id += 1
    self.index.add(vec)
    self.id_map[fid] = mid
    self._persist_faiss()
    return mid

SQLite에 정형 데이터를 저장하고 동시에 FAISS 인덱스에 벡터를 추가하여 하이브리드 메모리를 구축하는 함수

SQLite를 활용하여 단순 텍스트 외에도 타임스탬프, 중요도 점수, 메모리 신호(선호도, 사실, 과업 등)를 정형 데이터로 관리한다. 이를 통해 특정 시점의 기억을 조회하거나 중요도가 높은 정보만 필터링하는 등의 정교한 메모리 제어가 가능하다.

지능형 중요도 점수(Importance Scoring) 알고리즘을 통해 텍스트 길이, 역할, 특정 키워드, 메모리 신호 등을 기반으로 기억의 가치를 0.0에서 1.0 사이로 자동 계산한다. 이 점수는 나중에 메모리를 압축하거나 검색 가중치를 부여할 때 핵심적인 판단 근거가 된다.

python

def _importance_score(self, role: str, text: str, meta: Dict[str, Any]) -> float:
    base = 0.35
    length_bonus = min(0.45, math.log1p(len(text)) / 20.0)
    role_bonus = 0.08 if role == "user" else 0.03
    pin = 0.35 if meta.get("pinned") else 0.0
    signal = meta.get("signal", "")
    signal_bonus = 0.18 if signal in {"decision", "preference", "fact", "task"} else 0.0
    q_bonus = 0.06 if "?" in text else 0.0
    number_bonus = 0.05 if any(ch.isdigit() for ch in text) else 0.0
    return float(min(1.0, base + length_bonus + role_bonus + pin + signal_bonus + q_bonus + number_bonus))

텍스트의 길이, 역할, 메타데이터 신호를 기반으로 기억의 중요도를 0~1 사이로 계산하는 로직

메모리 압축 및 통합(Consolidation) 프로세스를 구현하여 메모리가 일정량 이상 쌓이면 중요도가 높은 기억들을 LLM이 하나의 요약본으로 압축한다. 이 요약본은 다시 시스템 메모리로 저장되어 장기적인 문맥 유지 비용을 최적화하고 정보를 영구화한다.

python

def consolidate(self) -> Optional[str]:
    // ...(중략)
    items_sorted = sorted(items, key=lambda x: (-(x.importance + 0.15 * (1.0 / (1.0 + (_now_ts() - x.created_ts) / 3600.0))), -x.created_ts))
    picked = items_sorted[:18]
    summary = self._compress_memories(picked, max_chars=520)
    // ...(중략)
    self.add_memory(
        role="system",
        text=f"Consolidated memory: {summary}",
        meta={"signal": "consolidation", "pinned": True, "importance": 0.95},
    )
    return cid

중요도가 높은 기억들을 선별하여 LLM으로 요약하고 시스템 메모리로 재저장하는 기억 통합 로직

실전 구현 데모를 통해 에이전트가 사용자의 이전 선호도(예: 불렛 포인트 답변 선호)를 정확히 기억하고 반영함을 확인했다. SentenceTransformer를 이용한 임베딩 생성부터 FAISS 인덱싱, SQLite 연동까지의 전체 파이프라인을 Python 코드로 상세히 제시한다.

실무 Takeaway

벡터 검색(FAISS)과 관계형 DB(SQLite)를 병행하여 시맨틱 맥락과 구조화된 사실 정보를 모두 정확히 복기하는 메모리 시스템을 구축할 수 있다.
자동화된 중요도 점수 산출과 주기적 요약(Consolidation)을 통해 LLM의 컨텍스트 윈도우 제한 문제를 해결하고 장기적인 성능을 유지할 수 있다.
검색된 장기 기억 블록을 프롬프트에 명시적으로 구분하여 주입함으로써 모델의 할루시네이션을 줄이고 사용자 맞춤형 일관성을 확보할 수 있다.

EverMem 스타일의 영구 메모리 에이전트 OS 구축 가이드: FAISS와 SQLite를 활용한 장단기 메모리 구현

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드