핵심 요약
기존의 트리 기반 RAG 방식은 단일 문서 내 검색에는 강하지만, 여러 문서에 흩어진 정보를 연결해야 하는 복잡한 질문에는 한계가 있었다. 이 논문은 데이터 분포에 유연하게 대응하는 새로운 트리 구조와 에이전트 기반 검색을 통해 대규모 문서 집합에서도 정확한 다단계 추론을 가능하게 한다.
왜 중요한가
기존의 트리 기반 RAG 방식은 단일 문서 내 검색에는 강하지만, 여러 문서에 흩어진 정보를 연결해야 하는 복잡한 질문에는 한계가 있었다. 이 논문은 데이터 분포에 유연하게 대응하는 새로운 트리 구조와 에이전트 기반 검색을 통해 대규모 문서 집합에서도 정확한 다단계 추론을 가능하게 한다.
핵심 기여
계층적 추상화 트리 인덱스 구축
사전 정의된 분포 가정 없이 유사한 데이터 청크를 반복적으로 병합하고 붕괴시키는 과정을 통해 데이터의 실제 구조를 반영하는 계층적 인덱스를 생성한다.
다중 입도 에이전트 검색기
사용자의 쿼리를 분석하여 추가 검색이 필요한지 판단하고, 쿼리를 재구성하여 트리 인덱스와 상호작용하는 에이전트 기반의 하이브리드 검색 메커니즘을 도입한다.
데이터 분포 적응성 증명
기존 k-means 방식이 데이터가 불균형할 때 발생하는 '균일 효과' 문제를 수학적으로 분석하고, 제안된 방식이 불균형한 데이터 분포를 더 잘 보존함을 입증한다.
핵심 아이디어 이해하기
기존의 트리 기반 RAG는 주로 k-means 클러스터링을 사용하여 문서를 그룹화한다. 하지만 k-means는 모든 클러스터의 크기가 비슷해야 한다는 가정을 전제로 하기에, 특정 주제의 문서가 압도적으로 많은 실제 데이터 환경에서는 소수 주제의 문서를 다수 주제의 클러스터에 섞어버리는 노이즈를 발생시킨다. 이는 검색 시 관련 없는 정보를 참조하게 만드는 원인이 된다.
Ψ-RAG는 이러한 한계를 극복하기 위해 응집형 계층적 클러스터링(AHC) 원리를 도입한다. 가장 유사한 문서 쌍부터 단계적으로 연결하며 트리를 쌓아 올리는 방식을 통해 데이터의 자연스러운 밀도 차이를 보존한다. 또한 트리의 상위 노드(추상화된 요약)와 하위 노드(세부 텍스트) 사이의 정보 격차를 줄이기 위해, 에이전트가 검색 과정에서 쿼리를 스스로 보완하고 구체화하도록 설계했다.
결과적으로 이 방식은 단순한 키워드 매칭을 넘어 문서 간의 논리적 연결 고리를 추적할 수 있게 한다. 이는 여러 문서를 참조해야 답을 낼 수 있는 복잡한 질문(Multi-hop QA)에서 기존 방식들보다 훨씬 정교한 맥락 파악을 가능하게 하며, 특히 대규모 문서군에서도 검색 성능이 저하되지 않는 확장성을 보여준다.
방법론
전체 시스템은 인덱싱과 검색의 두 단계로 구성된다. 인덱싱 단계에서는 먼저 모든 문서 청크를 임베딩 벡터로 변환한 후, 코사인 유사도를 기반으로 가장 유사한 쌍을 찾아 상위 노드로 연결하는 '병합 및 붕괴(merging and collapse)' 과정을 반복한다. 이 과정에서 생성된 각 상위 노드에 대해 LLM이 요약문(Summative abstract) 또는 키워드(Keyword abstract)를 생성하여 인덱스를 완성한다.
검색 단계에서는 R&A(Retrieval and Answering) 에이전트가 중심 역할을 수행한다. 에이전트는 사용자의 질문을 받고 현재 정보가 충분한지 판단한다. 정보가 부족하면 쿼리를 재구성(Query Reorganization)하여 트리 인덱스에서 하향식 검색을 수행하거나, BM25 기반의 희소 인덱스(Sparse Index)를 병행 사용하는 하이브리드 방식을 채택한다.
수학적으로는 Dasgupta's cost 함수를 사용하여 트리의 품질을 평가한다. 두 노드 u, v의 거리 d(u, v)와 그들의 최소 공통 조상(LCA) 하위의 리프 노드 개수 |ℓ(LCA(u, v))|를 곱하여 합산한 값을 최소화하는 방향으로 트리가 구성되도록 유도한다. 이는 의미적으로 가까운 정보일수록 트리의 더 깊은 곳에서 일찍 만나게 하여 검색 효율을 극대화하는 원리다.
주요 결과
교차 문서 multi-hop QA 벤치마크에서 Ψ-RAG는 기존의 대표적 트리 기반 모델인 RAPTOR 대비 평균 F1 스코어에서 25.9%의 성능 향상을 기록했다. 또한 지식 그래프 기반의 최신 모델인 HippoRAG 2보다도 7.4% 높은 정확도를 보였다.
효율성 측면에서도 뛰어난 성과를 거두었다. 130만 토큰 규모의 MuSiQue 데이터셋에서 인덱싱을 완료하는 데 단 258초가 소요되었으며, 이는 RAPTOR보다 6.5배 빠르고 HippoRAG 2와 비교해도 압도적으로 효율적인 수치다. 특히 데이터 분포가 한쪽으로 쏠린 불균형 데이터셋 실험에서 기존 모델들이 소수 클래스 검색에 실패하는 것과 달리 Ψ-RAG는 안정적인 성능을 유지했다.
기술 상세
Ψ-RAG의 핵심 차별점은 k-means 기반의 등깊이(equi-depth) 트리 구조를 탈피하고 데이터 적응형 구조를 채택했다는 점이다. 이론적으로 k-means는 목적 함수 내에서 클러스터 크기의 곱(ni * nj)을 최대화하려는 경향이 있어 데이터 분포를 왜곡하지만, Ψ-RAG가 채택한 AHC 기반 방식은 Dasgupta's cost를 최소화함으로써 실제 데이터의 밀도 구조를 보존한다. 또한 에이전트의 추론 루프 내에서 쿼리 재구성을 통해 트리 검색의 구조적 고립 문제를 해결하며, Summative와 Keyword 두 종류의 추상화를 결합하여 정보 손실을 최소화한다.
한계점
인덱싱 과정에서 LLM을 통한 추상화 생성 비용이 발생하며, 특히 문서량이 매우 많아질 경우 이 단계가 전체 파이프라인의 병목 현상이 될 수 있다. 또한 희소 검색기(BM25)가 고빈도 엔티티에 대해 노이즈가 섞인 청크를 반환할 경우 에이전트의 판단을 흐릴 수 있는 가능성이 존재한다.
실무 활용
대규모 사내 문서나 방대한 연구 논문 데이터셋에서 복잡한 질문에 답해야 하는 기업용 지식 관리 시스템에 즉시 적용 가능하다. 특히 오픈소스 LLM만으로도 구현이 가능하여 데이터 보안이 중요한 환경에 적합하다.
- 수천 건의 기술 문서에서 여러 단계의 인과 관계를 찾아야 하는 엔지니어링 지원 봇
- 방대한 뉴스 아카이브에서 특정 사건의 전개 과정을 요약하고 분석하는 저널리즘 도구
- 다양한 법률 판례와 조문을 교차 참조하여 법률적 해석을 제공하는 리걸테크 서비스
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.