RAG 컨텍스트 구성을 위한 새로운 접근 방식: 문서 청킹 대신 하향식 가지치기 도입

핵심 요약

기존의 상향식 청킹 방식 대신 문서의 구조적 계층을 유지하며 불필요한 부분만 제거하는 하향식 가지치기 알고리즘을 통해 RAG 시스템의 문맥 이해도를 높이는 방법을 제시합니다.

배경

구조화된 긴 문서에서 기존 청킹 방식이 문맥을 소실시키는 문제를 해결하기 위해 새로운 문서 처리 알고리즘을 개발하고 이를 공유하기 위해 작성되었습니다.

의미 / 영향

이 접근법은 RAG 시스템의 고질적인 문제인 문맥 단절을 해결하기 위한 데이터 전처리 패러다임의 변화를 시사합니다. 단순한 텍스트 분할을 넘어 문서의 의미론적 구조를 보존하는 방식이 고도화된 AI 애플리케이션 구축의 핵심 요소가 될 것입니다.

커뮤니티 반응

구조적 문서 처리에 어려움을 겪는 개발자들에게 실질적인 해결책을 제시하여 긍정적인 관심을 받고 있습니다.

실용적 조언

법률 문서나 기술 사양서처럼 계층 구조가 중요한 데이터를 다룰 때는 청킹 대신 문서 트리 구조를 보존하는 인덱싱 방식을 고려하세요.
LLM에 전달할 컨텍스트를 구성할 때 검색된 조각뿐만 아니라 상위 목차 정보를 포함시켜 모델의 이해를 돕도록 설계하세요.

언급된 도구

RAG pruning algorithm추천

문서 구조를 유지하며 컨텍스트를 응축하는 알고리즘

섹션별 상세

기존 RAG 파이프라인의 한계와 구조적 정보 손실 문제에 대해 논의합니다. 대부분의 RAG 시스템은 문서를 작은 조각으로 나누는 청킹(Chunking) 방식을 사용하지만, 이는 문서의 계층 구조를 파괴하는 부작용을 낳습니다. 작성자는 법률 문서나 기술 명세서처럼 상위 섹션의 조건이 하위 내용에 영향을 미치는 경우, 단순 청킹으로는 LLM이 정확한 문맥을 파악하기 어렵다는 점을 지적합니다. 특히 특정 단락이 어느 섹션에 속하는지 알 수 없거나, 몇 단락 앞에 명시된 전제 조건을 놓치는 문제가 빈번하게 발생합니다.

하향식 가지치기(Top-down Pruning) 알고리즘의 핵심 원리를 설명합니다. 작성자가 제안하는 방식은 문서를 미리 조각내지 않고 모든 요소를 구조적 위치와 함께 개별적으로 저장하는 것에서 시작합니다. 쿼리가 발생하면 전체 문서 트리를 로드한 뒤, 관련 없는 부분을 쳐내고 검색 결과와 주변 문맥, 그리고 상위 계층 구조(Breadcrumb Headings)만 남깁니다. 이 과정을 통해 최종적으로 LLM에 전달되는 컨텍스트는 원본 문서의 구조를 유지하면서도 토큰 제한 내에서 가장 핵심적인 정보만 담은 응축된 형태가 됩니다.

유연한 설정과 하이브리드 검색의 결합에 대해 설명합니다. 이 알고리즘은 토큰 예산(Token Budget), 컨텍스트 윈도우 크기, 섹션별 최대 토큰 수 등 다양한 파라미터를 통해 가지치기 강도를 조절할 수 있도록 설계되었습니다. 또한 시맨틱 검색(Semantic Search)과 전체 텍스트 검색(Full-text Search)을 결합하여 검색의 정확도를 높였습니다. 작성자는 이러한 방식이 특히 긴 구조적 문서를 다루는 법률이나 조달 업무, 기술 사양 분석 분야에서 큰 효과를 거둘 수 있다고 강조하며 커뮤니티의 피드백을 요청하고 있습니다.

이미지 분석

Diagram
기존의 청킹 방식과 제안된 가지치기 방식의 차이를 시각적으로 보여줍니다. 문서의 계층 구조를 유지하면서 검색 결과와 관련된 부분만 남기는 과정을 설명하여 알고리즘의 작동 원리를 이해하는 데 도움을 줍니다.
하향식 가지치기 알고리즘의 개념도

실무 Takeaway

문서의 계층 구조가 중요한 경우 기존의 단순 청킹 방식은 문맥 소실로 인해 RAG 성능을 저하시킵니다.
전체 문서 트리를 유지한 상태에서 불필요한 노드를 제거하는 하향식 가지치기 방식이 효과적인 대안이 됩니다.
검색 결과 주변의 문맥과 상위 헤딩 정보를 함께 제공함으로써 LLM의 추론 정확도를 향상시킵니다.
토큰 예산에 맞춘 동적 컨텍스트 구성이 가능하여 다양한 LLM 모델에 유연하게 대응할 수 있습니다.

언급된 리소스

문서Why we stopped chunking documents and built a pruning algorithm instead