효율적이고 비용 효과적인 RAG 시스템을 위한 웹 검색 인지형 청킹(W-RAC)

기존의 LLM 기반 청킹 방식은 텍스트 전체를 다시 생성해야 하므로 비용이 많이 들고 할루시네이션 위험이 있었다. W-RAC은 웹 문서의 구조를 활용해 LLM을 '생성기'가 아닌 '계획기'로 사용하여 비용을 획기적으로 줄이면서도 검색 성능을 유지한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

텍스트 비재생성 기반의 시맨틱 청킹

원본 텍스트를 LLM이 다시 쓰지 않고, 파싱된 웹 요소의 ID만을 조합하여 청크를 구성함으로써 할루시네이션 위험을 원천 차단하고 출력 토큰 비용을 최소화했다.

검색 인지형 계층 구조 설계

헤딩 깊이, 섹션 계층, 엔티티 밀도 등을 고려하여 청크 경계를 결정함으로써 실제 사용자 쿼리 패턴에 최적화된 검색 단위를 생성한다.

결정론적 웹 파싱과 LLM 계획의 결합

HTML을 추상 구문 트리(AST) 형태의 구조화된 데이터로 먼저 변환한 뒤, LLM은 이 구조들 사이의 논리적 연결만 판단하도록 역할을 분리하여 시스템 가시성을 높였다.

핵심 아이디어 이해하기

기존 RAG 시스템에서 문서를 나누는 Chunking은 주로 고정된 길이나 단순한 규칙에 의존했다. 하지만 이는 문맥을 끊어버리는 한계가 있었고, 이를 해결하기 위해 등장한 Agentic Chunking은 LLM이 텍스트를 읽고 새로 요약하거나 나누게 하여 막대한 연산 비용과 텍스트 변형 문제를 야기했다.

W-RAC은 이 문제를 '생성'이 아닌 '배치 계획'의 관점에서 접근한다. 먼저 웹 페이지를 제목, 본문, 표 등 고유 ID를 가진 구조적 단위로 분해한다. LLM에게는 원문 전체를 주는 대신 이 ID들의 목록과 계층 정보만 전달한다. LLM은 Attention 메커니즘을 통해 각 요소 간의 논리적 연관성을 파악하고, 어떤 ID들을 하나의 그룹으로 묶을지만 결정한다.

결과적으로 LLM은 수천 자의 텍스트를 출력하는 대신 ["id1", "id2"]와 같은 짧은 식별자 목록만 출력하게 된다. 이는 출력 토큰 수에 비례하는 LLM 비용을 극적으로 낮추면서도, 원문의 무결성을 100% 유지한 채 의미적으로 완벽한 덩어리를 만들 수 있게 한다.

방법론

W-RAC 파이프라인은 세 단계로 구성된다. 첫 번째 단계는 Deterministic Web Parsing으로, HTML 문서를 Markdown이나 AST 형태의 구조화된 표현으로 변환한다. 각 의미 단위(제목, 단락 등)에는 고유 식별자(ID)와 부모 제목 정보가 할당된다.

두 번째 단계는 LLM-Based Chunk Planning이다. LLM은 원문 텍스트 대신 ID, 계층 구조, 토큰 수 등의 메타데이터만 입력받는다. LLM은 제공된 프롬프트 지침에 따라 3단계 헤딩 계층을 유지하고 절차적 콘텐츠(순서가 있는 목록 등)를 분리하지 않도록 계획을 세워 ID 리스트 형태의 JSON을 출력한다.

마지막 단계인 Post-Processing 및 Indexing에서는 생성된 계획에 따라 로컬에서 ID를 실제 텍스트로 매핑한다. 최종 조립된 청크는 Embedding 모델을 거쳐 벡터 데이터베이스에 저장된다. 이 과정에서 [입력 메타데이터 → LLM 논리 판단 → ID 조합 출력 → 텍스트 복원] 순으로 연산이 이루어져 효율성을 극대화한다.

주요 결과

RAG-Multi-Corpus 벤치마크 실험 결과, W-RAC은 기존 Agentic Chunking 대비 출력 토큰 사용량을 평균 84.54% 절감했다. 파일당 평균 출력 토큰은 1,467개에서 226개로 감소했으며, 전체 처리 시간은 59.1% 단축되었다. 비용 측면에서는 GPT-4.1 API 가격 기준 기존 방식( $3.64) 대비 51.7% 저렴한$ 1.75의 비용만 발생했다.

검색 성능 면에서도 우수성을 입증했다. ZX Bank 데이터셋 기준 Precision@3 점수가 0.54에서 0.81로 50% 향상되었으며, 특히 시간적 흐름이 중요한 Temporal 쿼리에서 Precision@3가 0.43에서 0.79로 84% 개선되었다. 이는 W-RAC이 문맥적 연결성을 더 정확하게 보존함을 의미한다.

기술 상세

W-RAC은 청킹을 'Semantic Grouping Planner'의 문제로 재정의한다. 아키텍처의 핵심은 텍스트 추출과 시맨틱 계획의 분리(Decoupling)에 있다. LLM 프롬프트는 3단계 헤딩 계층(Level 1~3)을 강제하며, 부모 헤딩 ID를 모든 자식 청크에 포함시켜 검색 시 문맥 손실을 방지한다.

구현 측면에서 W-RAC은 특히 'Procedural Content' 보존에 집중한다. 단계별 지침이나 번호가 매겨진 목록이 여러 청크로 쪼개지지 않도록 LLM이 단일 청크 배열 내에 모든 단계를 그룹화하도록 설계되었다. 이는 기존의 고정 크기 청킹이 가진 고질적인 정보 단절 문제를 알고리즘적으로 해결한 것이다.

한계점

본 논문은 주로 웹 기반 문서(HTML, Markdown)의 구조적 특징에 의존하므로, 구조 정보가 빈약하거나 비정형성이 극심한 텍스트 데이터에서는 성능 이점이 줄어들 수 있다.

실무 활용

대규모 웹 콘텐츠를 실시간으로 수집하여 RAG 시스템을 구축해야 하는 기업 환경에 즉시 적용 가능하다. 특히 비용 효율성과 데이터 무결성이 중요한 금융, 기술 지원 문서 시스템에 적합하다.

수만 페이지 분량의 기업 기술 문서 사이트를 저비용으로 RAG 인덱싱
할루시네이션이 허용되지 않는 법률/규정 문서의 구조적 청킹
실시간 웹 크롤링 데이터를 즉각적으로 검색 엔진에 반영하는 파이프라인

코드 공개 여부: 공개

코드 저장소 보기

키워드

RAG(검색 증강 생성)Chunking(청킹)LLM(대형 언어 모델)Token Optimization(토큰 최적화)Information Retrieval(정보 검색)

효율적이고 비용 효과적인 RAG 시스템을 위한 웹 검색 인지형 청킹(W-RAC)

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

텍스트 비재생성 기반의 시맨틱 청킹

검색 인지형 계층 구조 설계

헤딩 깊이, 섹션 계층, 엔티티 밀도 등을 고려하여 청크 경계를 결정함으로써 실제 사용자 쿼리 패턴에 최적화된 검색 단위를 생성한다.

결정론적 웹 파싱과 LLM 계획의 결합

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

수만 페이지 분량의 기업 기술 문서 사이트를 저비용으로 RAG 인덱싱
할루시네이션이 허용되지 않는 법률/규정 문서의 구조적 청킹
실시간 웹 크롤링 데이터를 즉각적으로 검색 엔진에 반영하는 파이프라인

코드 공개 여부: 공개

코드 저장소 보기

키워드

RAG(검색 증강 생성)Chunking(청킹)LLM(대형 언어 모델)Token Optimization(토큰 최적화)Information Retrieval(정보 검색)

효율적이고 비용 효과적인 RAG 시스템을 위한 웹 검색 인지형 청킹(W-RAC)

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

효율적이고 비용 효과적인 RAG 시스템을 위한 웹 검색 인지형 청킹(W-RAC)

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드