ATANT: AI 연속성 측정을 위한 평가 프레임워크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

현재의 AI 시스템은 세션 기반으로 동작하여 장기적인 관계 유지에 한계가 있다. 이 논문은 AI가 시간에 따라 정보를 업데이트하고 모순을 해결하며 맥락을 재구성하는 '연속성'을 정의하고 이를 객관적으로 측정할 수 있는 벤치마크를 제공하여 진정한 개인화 AI 에이전트 개발의 토대를 마련한다.

왜 중요한가

핵심 기여

AI 연속성(Continuity)의 공식 정의 및 7가지 속성 확립

단순한 메모리나 검색과 차별화되는 시스템 속성으로서의 연속성을 정의하고, 세션 초월 유지, 업데이트 처리, 시간적 순서 보장, 모호성 해소 등 7가지 필수 요건을 명시했다.

LLM이 배제된 10단계 결정론적 평가 방법론 제안

평가 루프에서 LLM을 제거하여 모델의 편향이나 가변성을 배제하고, 쓰기 경로와 읽기 경로를 모두 검증하는 10개의 체크포인트를 통해 시스템의 신뢰성을 측정한다.

250개의 서사적 테스트 코퍼스 및 1,835개 검증 질문 구축

경력, 관계, 건강 등 6개 삶의 영역을 아우르는 현실적인 다회차 대화 시나리오를 통해 AI가 복잡한 맥락 속에서 정확한 사실을 추출하고 재구성하는지 테스트한다.

4단계 준수 수준(Compliance Levels) 로드맵 제시

Core, Stress, Cumulative, Scale의 4단계 계층을 통해 시스템이 단순한 사실 확인부터 대규모 데이터 부하 상황에서의 모호성 해소까지 단계적으로 발전할 수 있는 가이드를 제공한다.

핵심 아이디어 이해하기

기존의 RAG(검색 증강 생성)나 긴 컨텍스트 윈도우는 정보를 단순히 저장하거나 일시적으로 유지하는 데 집중한다. 이는 딥러닝의 Embedding 기반 유사도 검색에 의존하는데, 정보가 많아질수록 유사한 벡터들이 겹치면서 '누가 언제 무엇을 했는지'에 대한 정확한 맥락이 섞이는 문제가 발생한다. 마치 수천 페이지의 일기장에서 특정 사건을 찾을 때, 날짜와 인물이 뒤섞여 기억이 왜곡되는 것과 같다.

ATANT는 이러한 한계를 극복하기 위해 '연속성'을 아키텍처 계층으로 분리한다. 단순히 텍스트를 벡터로 변환해 저장하는 것이 아니라, 입력된 사실이 기존 정보와 어떤 관계인지(업데이트인지, 새로운 사건인지), 시간적으로 어떤 순서인지, 그리고 특정 개체와 어떻게 연결되는지를 구조적으로 파악해야 한다고 본다. 이는 모델의 추론 능력에만 의존하지 않고 시스템 자체가 데이터의 상태 변화를 추적하도록 설계되어야 함을 의미한다.

결과적으로 이 접근 방식은 데이터가 누적될수록 성능이 저하되는 기존 시스템과 달리, 250개의 서로 다른 삶의 이야기가 섞여 있는 대규모 데이터베이스에서도 간섭 없이 정확한 맥락을 재구성할 수 있게 한다. 이는 AI가 사용자와의 과거 대화를 단순히 '기억'하는 수준을 넘어, 변화하는 사용자의 삶을 '이해'하고 지속적인 관계를 유지할 수 있는 기술적 근거가 된다.

방법론

ATANT는 모델에 의존하지 않는(Model-agnostic) 평가 구조를 채택한다. 평가 과정에 LLM을 포함하지 않음으로써 평가의 결정론(Determinism)을 확보한다. 시스템은 동일한 입력에 대해 항상 동일한 출력을 내놓아야 하며, 이는 [입력 텍스트 → 연속성 레이어 처리 → 키워드 기반 검증] 순으로 진행되어 시스템의 순수한 로직 성능을 측정한다.

평가는 10개의 체크포인트(CP)로 구성된다. CP1~~CP4는 쓰기 경로(Write Path)로, 입력 분류, 사실 추출 및 저장, 예측 인덱싱, 유형 태깅을 검증한다. CP5~~CP8은 읽기 경로(Read Path)로, 쿼리 분류, 구조적 매칭, 수렴성, 최종 답변 도출을 확인한다. CP9~CP10은 시간적 추론과 문맥 적응이라는 교차적 문제를 다룬다. 특히 CP8(Final Answer)은 시스템이 추출한 답변에 예상 키워드가 모두 포함되었는지 확인하여 최종적인 정확도를 판별한다.

테스트는 격리(Isolated) 모드에서 시작하여 누적(Cumulative) 모드로 확장된다. 누적 모드에서는 [다수의 독립된 서사 저장 → 특정 서사에 대한 질문 → 타 서사와의 간섭 여부 확인] 과정을 거친다. 이는 데이터 부하 상황에서 시스템이 개체와 맥락을 얼마나 잘 분리(Disambiguation)해내는지 측정하기 위함이다.

주요 결과

레퍼런스 구현체인 NURA 메모리 파이프라인을 통해 평가한 결과, 기존의 LLM 기반 레거시 아키텍처는 58%의 정확도(CP8 기준)에 머물렀으며 튜닝을 통해서도 성능 개선에 한계를 보였다. 반면 연속성을 고려하여 재설계된 아키텍처는 250개의 스토리를 개별적으로 테스트했을 때 100%의 정확도를 달성했다.

가장 난이도가 높은 'Cumulative Scale' 모드(250개의 서사가 동일 데이터베이스에 공존)에서는 96%의 정확도를 기록했다. 이는 1,761개의 질문 중 74개에서 실패가 발생한 것으로, 주로 서로 다른 스토리에서 유사한 명칭의 술어(Predicate)가 사용될 때 발생하는 문맥 혼동이 원인이었다.

실패 분석 결과, 특정 도메인의 희귀한 용어(예: 양봉 관련 용어)에 대한 태깅 오류가 발견되었으나, 이는 하이퍼파라미터 튜닝이 아닌 아키텍처적 보완(술어 사전 확장 등)을 통해 해결 가능한 문제임이 확인되었다. 이는 연속성이 확률적 튜닝이 아닌 결정론적 엔지니어링의 영역임을 시사한다.

기술 상세

ATANT는 연속성을 메모리나 검색과는 독립된 별도의 아키텍처 레이어로 취급한다. 메모리가 과거를 저장(Store)한다면, 연속성은 현재에 필요한 적절한 과거를 유지(Keep alive)하고 재구성(Reconstruct)하는 역할을 한다. 이를 위해 7가지 속성(세션 초월 유지, 업데이트 처리, 시간적 순서, 모호성 해소, 재구성, 모델 독립성, 운영 유용성)을 정의했다.

프레임워크의 핵심은 '서사적 진실(Narrative Truth)'의 수용 여부를 테스트하는 것이다. 자연어 대화는 데이터베이스 포맷이 아니므로, 하나의 발화에 포함된 정체성, 사건, 시간, 감정 등을 다각도로 추출해야 한다. ATANT 코퍼스는 대명사 체인, 시간적 업데이트, 부정문, 모호한 술어 등 시스템을 교란하는 복잡한 패턴을 의도적으로 포함하여 설계되었다.

기술적으로 주목할 점은 '모델 독립성'이다. 현재의 LLM 성능에 의존하지 않고 연속성 레이어 자체의 논리적 완결성을 테스트함으로써, 향후 더 강력한 모델이나 다른 형태의 AI(비전 모델, 월드 모델 등)가 등장하더라도 동일한 기준으로 시스템의 연속성을 평가할 수 있는 미래 지향적 구조를 갖추고 있다.

한계점

현재 CP8 검증은 키워드 포함 여부만 확인하므로 답변의 문장 응집도나 자연스러움과 같은 재구성 품질(Reconstruction Quality)을 완벽히 측정하지 못한다. 또한 250개의 스토리가 단일 저자에 의해 작성되어 언어적, 문화적 다양성이 부족하며, 현재는 영어 데이터셋만 제공되어 다국어 연속성 테스트에는 한계가 있다.

실무 활용

개인화된 AI 비서나 장기적인 상호작용이 필요한 에이전트 시스템을 구축하는 개발자에게 필수적인 평가 프레임워크를 제공한다. RAG 시스템의 고질적인 문제인 정보 혼선과 업데이트 오류를 체계적으로 디버깅하고 개선할 수 있다.

사용자의 건강 상태나 일정 변화를 장기간 추적하고 관리하는 헬스케어 AI 에이전트 구축
수개월간 진행되는 프로젝트의 맥락을 유지하며 협업하는 코딩 및 업무 보조 에이전트 개발
다양한 등장인물과 과거 사건을 기억하고 일관성 있게 대화하는 게임용 NPC 시스템 검증
기존 RAG 파이프라인의 데이터 누적에 따른 성능 저하 및 정보 간섭 문제 진단

코드 공개 여부: 공개

코드 저장소 보기

키워드

Continuity(연속성)RAG(검색 증강 생성)Vector Database(벡터 데이터베이스)Evaluation Framework(평가 프레임워크)Narrative Truth(서사적 진실)Memory System(메모리 시스템)