핵심 요약
기존 RAG 시스템은 LLM을 검색 결과의 수동적인 소비자로 취급하여 전체 지식 구조를 파악하지 못하는 한계가 있다. 이 논문은 지식 베이스를 계층적인 '스킬 디렉토리'로 변환하여 에이전트가 스스로 탐색하고 추론하며 정보를 찾게 함으로써 복잡한 질의에 대한 답변 정확도를 획기적으로 높였다.
왜 중요한가
기존 RAG 시스템은 LLM을 검색 결과의 수동적인 소비자로 취급하여 전체 지식 구조를 파악하지 못하는 한계가 있다. 이 논문은 지식 베이스를 계층적인 '스킬 디렉토리'로 변환하여 에이전트가 스스로 탐색하고 추론하며 정보를 찾게 함으로써 복잡한 질의에 대한 답변 정확도를 획기적으로 높였다.
핵심 기여
CORPUS2SKILL 프레임워크 제안
원시 말뭉치를 오프라인에서 계층적 스킬 디렉토리로 변환하고, 서빙 타임에 LLM 에이전트가 이를 직접 탐색하게 하는 컴파일-탐색(compile-then-navigate) 구조를 설계했다.
계층적 스킬 증류 파이프라인
문서들을 반복적으로 클러스터링하고 각 수준에서 LLM 기반 요약을 생성하여, 에이전트가 파일 브라우징과 문서 조회를 통해 지식에 접근할 수 있는 트리 구조를 구축했다.
WixQA 벤치마크 SOTA 달성
기업용 고객 지원 데이터셋인 WixQA에서 Dense Retrieval, RAPTOR, Agentic RAG 등 기존 베이스라인을 모든 품질 지표에서 능가하는 성능을 입증했다.
핵심 아이디어 이해하기
기존 RAG는 사용자의 질문을 Embedding 공간에 투영하여 유사한 조각들을 찾아오지만, 모델은 자신이 왜 이 조각을 받았는지 혹은 더 나은 정보가 다른 곳에 있는지 알 수 없는 '블랙박스' 상태에 놓인다. 이는 마치 도서관에서 사서가 가져다주는 책 몇 페이지만 보고 보고서를 쓰는 것과 같아, 전체적인 맥락 파악이 필요한 복잡한 질문에 취약하다.
CORPUS2SKILL은 도서관 전체를 체계적인 '파일 시스템'으로 재구성하여 에이전트에게 지도를 쥐여주는 방식을 취한다. 먼저 전체 문서를 주제별로 묶고 요약하는 과정을 반복하여 계층적인 트리 구조를 만든다. 에이전트는 최상위 카테고리부터 하위 주제로 내려가며 정보를 탐색하며, 이 과정에서 자신이 현재 어디를 보고 있는지 명확히 인지한다.
이러한 구조 덕분에 에이전트는 잘못된 경로로 들어갔을 때 스스로 Backtracking을 수행하거나, 서로 다른 주제에 흩어진 정보를 결합하는 고차원적인 추론이 가능해진다. 결과적으로 벡터 데이터베이스나 인덱스 없이도 LLM의 추론 능력만으로 방대한 지식 베이스에서 정확한 근거를 찾아낼 수 있게 된다.
관련 Figure

RAG는 쿼리를 임베딩하여 벡터 DB에서 문서를 수동적으로 가져오지만, Navigate 방식은 LLM 에이전트가 스킬 계층을 직접 탐색하며 필요시 경로를 되돌아가거나(Backtrack) 최적의 문서를 찾아내는 과정을 보여준다. 이는 에이전트가 지식 구조에 대한 가시성을 가질 때 더 능동적인 추론이 가능함을 시각화한다.
전통적인 RAG와 제안된 Navigate 방식의 비교 다이어그램
방법론
CORPUS2SKILL은 오프라인 컴파일 단계와 온라인 서빙 단계로 나뉜다. 컴파일 단계에서는 먼저 문서들을 Sentence Embedding 모델을 통해 벡터화한 후, K-Means 알고리즘을 사용하여 반복적으로 클러스터링한다. 각 클러스터는 LLM에 의해 요약되며, 이 요약본은 다시 상위 수준의 클러스터링 입력값으로 사용되어 최종적으로 루트 클러스터까지 도달하는 계층 구조를 형성한다.
형성된 계층 구조는 실제 파일 시스템 형태로 구체화된다. 루트 클러스터는 SKILL.md 파일로, 하위 클러스터는 INDEX.md 파일로 저장된다. [클러스터 내 문서 벡터들의 평균값 → K-Means 할당 → LLM 요약 생성 → 요약본 재임베딩] 과정을 통해 의미론적으로 응집력 있는 트리 구조가 완성된다. 각 파일은 YAML 형식의 메타데이터와 함께 주제 설명, 하위 그룹 목록, 문서 ID 등을 포함한다.
서빙 단계에서는 Anthropic의 Skills API를 활용하여 Progressive Disclosure 메커니즘을 구현한다. 에이전트는 처음에 스킬의 이름과 한 줄 설명만 로드하여 컨텍스트 비용을 절감하며, 필요에 따라 특정 SKILL.md나 INDEX.md를 읽어 상세 내용을 파악한다. 에이전트에게는 'ls'와 'cat' 역할을 하는 code_execution 도구와 특정 문서를 가져오는 get_document 도구가 제공되어, 스스로 지식 트리를 탐색하며 답변을 생성한다.
관련 Figure

컴파일 단계에서 문서 말뭉치가 임베딩, 클러스터링, LLM 요약을 거쳐 계층적 스킬 파일(SKILL.md, INDEX.md)로 변환되는 과정을 상세히 설명한다. 서빙 단계에서는 에이전트가 이러한 파일들을 도구를 통해 탐색하며 최종 답변을 생성하는 워크플로우를 보여준다.
CORPUS2SKILL의 컴파일 단계와 서빙 단계의 전체 시스템 아키텍처
주요 결과
WixQA 데이터셋(6,221개 문서, 200개 전문가 질의) 실험 결과, CORPUS2SKILL은 Token F1 점수 0.460을 기록하여 Agentic RAG(0.388) 대비 19%, Dense Retrieval(0.363) 대비 27% 향상된 성능을 보였다. 특히 Factuality(0.729)와 Context Recall(0.652) 지표에서도 RAPTOR를 포함한 모든 베이스라인을 압도했다.
Ablation Study를 통해 트리 구조의 영향력을 분석한 결과, 가지치기 비율(branching ratio) p=5인 좁고 깊은 트리가 p=20인 넓고 얕은 트리보다 우수한 성능을 보였다. 이는 에이전트가 한 번에 검토해야 할 선택지가 적을수록 더 정확한 경로를 선택할 수 있음을 시사한다. 또한, 더 저렴한 모델인 Claude 3 Haiku를 사용하더라도 기존의 고성능 RAG 시스템들과 대등하거나 우수한 성능을 유지하여 시스템의 견고함을 증명했다.
기술 상세
CORPUS2SKILL은 RAG의 검색 과정을 에이전트의 '의사결정 과정'으로 치환했다는 점에서 기술적 차별점을 갖는다. 기존 RAPTOR가 트리의 모든 노드를 벡터화하여 검색 대상으로 삼는 것과 달리, 본 연구는 트리의 구조 자체를 에이전트의 가시 영역에 노출시킨다. 이는 LLM이 검색 결과의 단순 수용자가 아닌, 탐색 전략을 수립하는 주체로 기능하게 한다.
구현 측면에서 'Progressive Disclosure'를 도입하여 컨텍스트 윈도우의 효율성을 극대화했다. 에이전트는 초기 단계에서 약 200 토큰의 스킬 메타데이터만 확인하고, 탐색이 깊어짐에 따라 필요한 파일만 로드한다. 이는 수만 개의 문서를 다루는 환경에서도 에이전트가 길을 잃지 않게 돕는다. 또한, K-Means의 Hard Assignment를 통해 각 문서가 단 하나의 경로에만 존재하도록 강제함으로써 파일 시스템 기반의 결정론적 탐색을 가능하게 했다.
한계점
질의당 비용이 기존 RAG 대비 높다. 에이전트가 여러 단계의 파일을 읽어야 하므로 입력 토큰 사용량이 증가하기 때문이다. 또한, 문서가 단 하나의 클러스터에만 속하는 Hard Clustering 방식은 여러 주제에 걸쳐 있는 문서의 경우 탐색 병목 현상을 일으킬 수 있다. 마지막으로 현재 시스템은 배치 처리 방식이어서 실시간 문서 업데이트를 반영하기 위해서는 전체 재컴파일이 필요하다.
실무 활용
기업 내 방대한 문서고를 가진 고객 지원 시스템이나 법률/규정 준수 검토 업무에 즉시 적용 가능한 구조이다. 별도의 벡터 데이터베이스 구축 없이 파일 시스템과 LLM API만으로 고성능 지식 탐색 에이전트를 구현할 수 있다.
- 복잡한 제품 매뉴얼과 정책 문서가 섞여 있는 기업용 고객 지원 챗봇
- 여러 부서의 규정집을 참조하여 답변해야 하는 사내 컴플라이언스 에이전트
- 대규모 기술 문서 사이트의 지능형 탐색 및 질의응답 시스템
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.