에이전트 메모리 스토어가 모델 환각까지 영구 보관하는 문제가 보고되었다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

에이전트 장기 메모리에서 모델의 환각이 반복 재생산되는 문제를 해결하기 위해 작성자는 주장 승격을 모델 신뢰도만으로 하지 않고 모델이 인용한 근거 조각 중 최소 하나가 원문에 실제로 존재하는지를 확인하는 소스-그라운딩 절차를 도입했다고 밝혔다; 구현은 정규화된 부분 문자열 매칭을 기본으로 하고 표기 차이 발생 시 토큰 오버랩 검사를 보완책으로 사용한다. 이 정책은 거짓 양성을 방지하기 위해 거짓 음성 발생을 허용하는 보수적 트레이드오프를 채택하며 예측·약속·거래 리스크 같은 고영향 주장에는 추가적 확증이나 인간 확인을 요구한다. 작성자는 렉시컬 그라운딩이 인용문의 존재만을 확인할 뿐 그로부터의 추론 정당성까지 보장하지 못하는 한계를 인정하고, 현재 구현이 오픈소스 CRMy 프로젝트의 Postgres 기반 저장소에서 운용 중임을 공개했다. 마지막으로 작성자는 의미 기반(NLI) 그라운딩을 도입할 때의 지연 대비 이점에 대한 커뮤니티 경험을 묻고 있다.

커뮤니티 반응

대체로 공감하는 반응이 다수며, 다수 사용자가 신뢰도만으로 자동 저장하는 위험을 경험했다고 공유했다. 몇몇 댓글은 문자열 매칭의 허점과 토큰화 기반 보완의 현실적 한계를 지적했고 의미 기반 검증의 도입 가능성과 비용·지연 문제를 사례와 함께 언급했다. 고영향성 주장에 대해 인간 검토를 요구하는 설계 선택에는 실무적 타당성이 있다는 동의가 널리 나타났다.

주요 논점

01중립다수

작성자는 신뢰도만으로는 환각을 걸러낼 수 없으며 소스-그라운딩을 통한 검증이 필요하다고 결론지었다.

02찬성다수

렉시컬 그라운딩(부분 문자열 매칭 + 토큰 오버랩)은 자동 승격의 거짓 양성을 줄이는 실용적 하한으로 유효하다고 본다.

03중립분열

의미 기반(NLI/semantic) 검증은 더 나은 정밀도를 줄 수 있으나 지연과 비용 측면의 트레이드오프가 있어 도입 판단이 필요하다는 논점이 제기되었다.

합의점 vs 논쟁점

합의점

모델 confidence만으로 장기 메모리 승격을 허용하면 환각이 영구화될 위험이 있다는 점에는 대체로 동의가 형성되었다.
고영향성 주장에는 추가 검증 또는 인간 확인을 두는 보수적 정책이 필요하다는 데 실무적 합의가 존재했다.

논쟁점

렉시컬 그라운딩으로 충분한지, 아니면 의미 기반 NLI 검증을 도입해야 하는지에 대해 커뮤니티가 분열되어 있다.
문자열 매칭의 허점과 토큰 오버랩 임계값 설정 방식이 실제 운영에서 얼마나 효과적인지에 대해서는 의견 차이가 있었다.

실용적 조언

모델의 confidence만으로 자동 저장을 허용하지 말고 인용된 근거 조각이 원문에 존재하는지 확인하는 체크포인트를 도입하라고 권장한다. 구현 방법으로는 입력과 원문을 정규화한 뒤 부분 문자열 매칭을 수행하고 표기 차이가 있는 경우 토크나이저 기반의 토큰 오버랩을 보조 수단으로 사용하면 된다. 영향도가 큰 주장 유형은 추가적으로 독립적 근거 확인 또는 인간 검토 절차를 결합해 자동 승격의 위험을 줄여야 한다.

섹션별 상세

작성자는 에이전트의 장기 메모리 저장소가 모델이 '기억하기로 한' 모든 내용을 그대로 보관하며 이 과정에서 모델의 환각이 영구화된다고 문제를 제기했다. 이 현상은 한 번 저장된 허위 정보가 이후 검색 시 반복적으로 재사용되어 수주간 재현되는 형태로 나타난다고 보고되었다. 문제의 핵심은 단순히 정보가 존재하는지 여부보다 잘못된 정보가 반복적으로 신뢰받는 점에 있으며, 이는 시스템 신뢰도 저하로 연결된다.

작성자는 모델의 confidence score만으로는 안전하지 않다고 지적했다. 잘못 보정된 모델은 높은 신뢰도를 부여하면서도 출처에 존재하지 않는 주장을 제시할 수 있으므로 신뢰도만으로 자동 승격하면 환각이 영구화된다는 논리적 근거를 제시했다. 따라서 저장 조건에 신뢰도 외의 독립적 검증 단계가 필요하다고 결론지었다.

제안된 검증 절차는 주장에 모델이 인용한 근거 조각 중 적어도 하나가 원문 소스에 실제로 존재하는지를 확인하는 소스-그라운딩 검사로 작동한다. 구현상으로는 정규화된 부분 문자열 매칭을 1차로 수행하고 구두점·표기 차이로 인한 불일치가 발생하면 토큰 오버랩 기반의 대체 검사로 보완하는 방식이 사용된다. 이 절차는 인용된 스니펫이 원문에 존재하는지를 확인하는 데 초점을 두며, 해당 조건을 만족하지 못하면 주장을 '검토 대상 신호'로 남겨 자동 승격을 차단한다.

정책 설계에서 작성자는 거짓 음성(false negative)을 허용하여 추가 인간 검토를 요구하는 방향으로 보수적 설계를 선택했다는 점을 명시했다. 이는 자동으로 환각을 승격시키는 거짓 양성(false positive)을 절대 발생시키지 않겠다는 원칙의 결과로서, 자동 승격 기준을 엄격하게 유지하는 대신 검토 비용을 늘리는 트레이드오프를 받아들인다. 또한 예측·약속·거래 리스크처럼 영향도가 큰 주장 유형은 추가적인 독립적 확증이나 인간 확인을 요구한다고 구체적으로 적었다.

작성자는 현재 접근 방식의 한계를 솔직하게 밝히며 렉시컬 그라운딩은 인용문이 존재함을 확인할 뿐 그로부터 도출된 추론이 정확한지는 보장하지 못한다고 지적했다. 즉, 원문에 실제 인용이 있어도 그 인용으로부터 잘못된 결론이 도출될 수 있으므로 렉시컬 그라운딩은 신뢰성 판단의 '하한(floor)' 역할만 수행한다는 점을 명확히 했다. 따라서 추가적 의미 검증 계층이나 사람 검토가 여전히 필요하다고 설명했다.

배포 환경과 공개 정보도 함께 제공되어 이 접근 방식이 오픈소스 프로젝트인 CRMy의 일부로 Postgres를 백엔드로 사용해 구현되었다고 공지되었다. 작성자는 커뮤니티에 의미 기반(semantic/NLI) 그라운딩을 사용해 저장 조건을 판정하는 사례가 있는지, 그리고 그 방식이 지연(latency) 측면에서 가치가 있는지를 질의하며 실무 경험을 요청했다. 이 질문은 현재의 렉시컬 접근과 의미 기반 접근 사이의 성능·정확도·지연 트레이드오프에 대한 실무적 토론을 유도하려는 목적을 갖는다.

언급된 도구

CRMy중립링크

에이전트 메모리 보관 및 소스-그라운딩 검사 기능을 포함한 오픈소스 패키지로, Postgres를 백엔드로 사용한다고 공지되었다.

언급된 리소스

GitHubCRMy npm 패키지