핵심 요약
기존 RAG 방식은 텍스트 덩어리를 단순 검색하여 장기적인 대화 맥락이나 복잡한 관계를 파악하는 데 한계가 있다. 이 논문은 지식 그래프를 활용해 정보를 구조화함으로써 LLM 에이전트가 사용자와의 상호작용 이력을 더 정확하게 기억하고 논리적으로 추론할 수 있는 프레임워크를 제안한다.
왜 중요한가
기존 RAG 방식은 텍스트 덩어리를 단순 검색하여 장기적인 대화 맥락이나 복잡한 관계를 파악하는 데 한계가 있다. 이 논문은 지식 그래프를 활용해 정보를 구조화함으로써 LLM 에이전트가 사용자와의 상호작용 이력을 더 정확하게 기억하고 논리적으로 추론할 수 있는 프레임워크를 제안한다.
핵심 기여
하이브리드 그래프 구조 설계
표준 엣지 외에도 두 종류의 하이퍼 엣지를 지원하여 의미론적 관계와 시간적 흐름을 동시에 표현할 수 있는 유연한 외부 메모리 아키텍처를 구축했다.
6가지 그래프 검색 알고리즘 평가
A* 검색, WaterCircles 탐색, BeamSearch 등 다양한 검색 메커니즘을 제안하고 데이터셋 및 모델 규모에 따른 최적의 구성을 체계적으로 분석했다.
DiaASQ 벤치마크 확장
기존 대화형 데이터셋에 시간 정보와 내부 모순 문장을 추가하여 시스템이 시간적 의존성과 문맥 인식 추론을 얼마나 잘 수행하는지 검증했다.
핵심 아이디어 이해하기
기존 RAG는 텍스트를 고정된 크기의 벡터 임베딩으로 변환한 뒤 유사도에만 의존해 검색하므로, 여러 문서에 흩어진 정보 간의 논리적 연결이나 시간 순서를 파악하기 어렵다. 이는 마치 도서관에서 관련 키워드가 적힌 페이지만 찢어 모으는 것과 같아 전체 맥락을 놓치기 쉽다.
이 논문은 정보를 '객체(Object)', '논지(Thesis)', '에피소드(Episodic)' 단위로 쪼개어 지식 그래프의 노드로 구성한다. 각 노드는 하이퍼 엣지로 연결되어 특정 사건이 언제 일어났는지, 어떤 개념들이 하나의 논리적 문장을 이루는지 구조적으로 저장된다. 이는 도서관의 책들을 서로 연관된 주제와 연대기 순으로 선을 연결해 지도를 만드는 것과 유사한 원리이다.
결과적으로 LLM은 단순한 텍스트 조각이 아니라 구조화된 지식 지도를 탐색하게 된다. 특히 A* 알고리즘과 같은 그래프 탐색 기법을 적용해 질문과 가장 관련성이 높은 경로를 찾아냄으로써, 복잡한 다단계 추론이 필요한 질문에도 더 정확한 답변을 생성할 수 있게 된다.
방법론
메모리 구조는 세 가지 유형의 정점(Vertex)으로 구성된다. 원자적 개념을 나타내는 객체 정점(Vo), 완전한 생각을 캡슐화한 논지 정점(Vt), 그리고 원본 텍스트 구절에 대응하는 에피소드 정점(Ve)이다. 이들은 하이퍼 엣지를 통해 다대다 관계를 형성하며 복잡한 의미 구조를 유지한다.
메모리 구축(Memorization) 파이프라인은 텍스트 문서에서 트리플(Triple)과 논지를 추출하고, 기존 지식과 대조하여 오래된 정보를 삭제하거나 갱신하는 과정을 거친다. 추출된 정보는 그래프 데이터베이스(Neo4j)와 벡터 데이터베이스(Milvus)에 동시에 저장되어 구조적 탐색과 의미적 유사도 검색을 모두 지원한다.
검색(Retrieval) 단계에서는 질문에서 핵심 엔티티를 추출한 뒤 그래프 내 대응하는 노드에서 탐색을 시작한다. A* 알고리즘의 경우 휴리스틱 함수 h-metric을 사용하는데, 현재 노드와 목표 노드 임베딩 간의 Inner Product를 계산하여 [임베딩 벡터 간 내적 수행 → 유사도 수치 산출 → 목표까지의 예상 거리로 활용]하는 방식으로 최적의 경로를 찾는다.
관련 Figure

객체(초록), 논지(노랑), 에피소드(파랑) 노드가 어떻게 하이퍼 엣지로 연결되는지 보여준다. 단순한 개체 간 관계를 넘어 '모나리자는 유화이다'와 같은 구체적인 논지가 그래프의 구조적 요소로 포함됨을 확인할 수 있다.
레오나르도 다빈치와 모나리자를 예시로 한 객체, 논지, 에피소드 정점 간의 연결 구조 다이어그램

트리플 및 논지 추출, 오래된 지식 삭제, 에피소드 메모리 구축 과정을 단계별로 도식화했다. LLM이 단순히 정보를 저장하는 것이 아니라 기존 지식과의 정합성을 판단하여 그래프를 동적으로 유지함을 보여준다.
텍스트 문서에서 지식 그래프를 구축하고 업데이트하는 메모리 파이프라인의 아키텍처

엔티티 추출, 그래프 매칭, 트리플 검색 및 필터링을 거쳐 조건부 답변 생성이 이루어지는 과정을 설명한다. 검색된 그래프 데이터가 LLM의 답변 생성에 직접적인 컨텍스트로 활용되는 메커니즘을 나타낸다.
질문 입력부터 최종 답변 생성까지의 QA 파이프라인 구조
주요 결과
TriviaQA, HotpotQA, DiaASQ 벤치마크 실험 결과, 모델의 크기와 태스크의 특성에 따라 최적의 검색 설정이 다름을 확인했다. 7B/8B 규모의 중소형 모델에서는 BeamSearch를 사용하면서 에피소드 노드 탐색을 제한했을 때 가장 높은 정확도를 보였는데, 이는 작은 모델이 길고 복잡한 문맥에서 발생하는 노이즈에 취약하기 때문이다.
반면 DeepSeek V3와 같은 대형 모델은 BeamSearch와 WaterCircles를 결합한 하이브리드 전략에서 가장 우수한 성능을 보였다. 특히 기존 GraphRAG 방식 대비 특정 설정에서 14.1%의 성능 향상을 기록했으며, 시간적 모순이 포함된 복잡한 대화 시나리오에서도 강건한 추론 능력을 입중했다.
기술 상세
본 연구는 AriGraph 아키텍처를 확장하여 객체 트리플, 논지 문장, 에피소드 추적을 통합한 하이브리드 그래프 설계를 제안한다. 특히 논지(Thesis) 정점은 여러 객체 정점을 연결하는 하이퍼 엣지 역할을 수행하여 문장 단위의 의미를 보존한다.
검색 알고리즘 측면에서 A* 검색의 세 가지 변형(IP, Weighted Shortest Path, Averaged Weighted Shortest Path)을 도입하여 경로 탐색의 효율성을 극대화했다. 또한 WaterCircles 알고리즘을 통해 벡터 연산 없이 그래프 구조만으로 빠르게 관련 정보를 확산하며 검색하는 방식을 구현하여 지연 시간을 단축했다.
구현 세부사항으로는 Neo4j를 지식 그래프 저장소로, Milvus를 벡터 저장소로 사용하며 Redis와 MongoDB를 캐싱 및 중간 결과 저장용으로 활용하는 다중 데이터베이스 아키텍처를 채택했다. 이는 대규모 지식 그래프 탐색 시 발생하는 연산 부하를 효과적으로 분산시킨다.
한계점
본 논문은 실험에 사용된 RAG 베이스라인들이 특정 데이터셋에 미세 조정(Fine-tuned)된 리더/리트리버 모델을 사용했기 때문에, 범용 모델을 사용한 제안 방식이 표준 RAG 대비 일부 지표에서 낮게 측정될 수 있음을 명시했다. 또한 대규모 그래프 구축 시 발생하는 시간 및 비용 효율성에 대한 추가 최적화가 필요함을 언급했다.
실무 활용
사용자의 과거 대화 이력을 장기적으로 기억하고 이를 바탕으로 정교한 답변을 제공해야 하는 개인 비서형 AI 서비스에 즉시 적용 가능하다.
- 사용자의 선호도와 과거 발언을 기억하여 맞춤형 정보를 제공하는 개인화 에이전트
- 방대한 기술 문서나 법률 문서 내의 복잡한 관계를 추론해야 하는 전문 지식 검색 시스템
- 시간 순서에 따른 사건의 변화를 추적해야 하는 뉴스 분석 및 리포트 생성 도구
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.