RAG 성능을 극대화하는 최적의 청킹 전략: 7가지 방식 비교 실험 결과

커뮤니티 반응

실험 설계의 엄격함과 특히 동일 컨텍스트 예산(Equal Context Budget)을 적용한 점에 대해 커뮤니티의 높은 평가를 받고 있습니다. 많은 개발자가 복잡한 최신 기법보다 기본 기법이 더 효과적이라는 결과에 공감하며 자신의 경험을 공유하고 있습니다.

주요 논점

01찬성다수

재귀적 분할 방식이 문맥 보존 능력이 뛰어나며 실무에서 가장 안정적인 성능을 보여준다는 주장에 동의합니다.

02중립소수

세맨틱 청킹이 실패한 이유는 리랭커(Reranker)나 계층적 검색(Hierarchical Retrieval)과 결합되지 않았기 때문일 수 있다는 의견이 있습니다.

합의점 vs 논쟁점

합의점

청킹 전략 비교 시 검색되는 총 토큰 수를 동일하게 맞추는 것이 공정한 비교의 핵심입니다.
학술 논문처럼 밀도가 높은 텍스트에서는 문맥의 일관성을 유지하는 것이 답변 품질에 결정적입니다.

논쟁점

세맨틱 청킹의 임계값(Threshold)을 더 정교하게 튜닝했을 때의 성능 잠재력에 대해서는 의견이 갈립니다.
합성 데이터(Synthetic Data) 기반의 평가가 실제 인간의 평가와 얼마나 일치할지에 대한 논의가 있습니다.

실용적 조언

LangChain의 RecursiveCharacterTextSplitter를 사용하고 청크 크기는 512, 오버랩은 50 정도로 시작하세요.
PDF 문서를 처리할 때는 MarkItDown과 같은 도구를 사용하여 마크다운(Markdown)으로 변환한 뒤 구조를 파악하여 청킹하는 것이 좋습니다.
자체 벤치마크를 수행할 때는 'target_tokens / avg_chunk_tokens' 공식을 사용하여 각 전략의 검색 개수(k)를 조정하세요.

섹션별 상세

실험의 공정성을 위해 '동일 컨텍스트 예산(Equal Context Budget)' 개념을 도입했습니다. 기존 벤치마크들이 단순히 상위 K개의 청크를 가져오는 방식은 청크 크기가 큰 전략에 유리할 수밖에 없으므로, 모든 전략이 생성 모델에 약 2,000 토큰의 컨텍스트를 제공하도록 검색 개수(k)를 적응적으로 조정했습니다. 이를 통해 청크 크기가 아닌 청킹 전략 자체의 품질을 정확히 측정할 수 있었습니다.

재귀적 문자 분할(Recursive Character Splitting) 방식이 69%의 정확도로 가장 우수한 성능을 기록했습니다. 이 방식은 문단, 문장, 단어 단위로 자연스러운 경계에서 텍스트를 나누기 때문에 학술 논문의 논리적 단위를 잘 보존합니다. 결과적으로 생성 모델은 문맥이 끊기지 않은 완성도 높은 정보를 전달받아 더 정확한 답변을 생성할 수 있었습니다.

최근 주목받는 세맨틱 청킹(Semantic Chunking)과 명제 청킹(Proposition Chunking)은 기대보다 낮은 성능을 보였습니다. 세맨틱 청킹은 평균 43 토큰 수준으로 텍스트를 너무 잘게 쪼개는 경향이 있어, 검색된 수십 개의 파편화된 문장들이 생성 모델에게 일관된 맥락을 제공하지 못했습니다. 이는 검색 경계의 순수성보다 컨텍스트의 응집력이 답변 품질에 더 중요하다는 점을 시사합니다.

청크의 세밀함(Granularity)과 검색 품질 사이에는 명확한 트레이드오프(Trade-off)가 존재합니다. 작은 청크를 사용하면 여러 위치에서 정밀하게 정보를 추출할 수 있어 답변 정확도가 높아지지만, 큰 청크를 사용하면 관련 문서를 찾는 문서 수준의 검색 성능(Document-level F1)이 더 높게 나타났습니다. 따라서 시스템의 목적이 특정 답변 추출인지, 관련 문서 탐색인지에 따라 전략을 달리해야 합니다.

학술 논문과 같이 전문 용어가 밀집된 데이터셋은 청킹 전략의 변별력을 확인하기에 최적의 환경입니다. 도메인 간 차이가 큰 일반 데이터와 달리, 논문들은 유사한 용어와 구조를 공유하므로 임베딩 공간에서 미세한 차이를 구분해내는 청킹의 품질이 성능을 결정짓는 핵심 요소가 됩니다.

세맨틱 청킹의 취약점 중 하나는 설정의 까다로움(Brittleness)입니다. 실험 결과 코사인 유사도 임계값(Cosine Similarity Threshold) 설정에 따라 성능이 크게 좌우되었으며, 이를 최적화하기 위해서는 많은 수동 작업이 필요했습니다. 반면 재귀적 분할 방식은 기본 설정만으로도 강력하고 안정적인 성능을 보여 실무적인 효율성 면에서 압도적이었습니다.

언급된 도구

Vecta SDK추천링크

RAG 파이프라인 평가 및 벤치마크 생성

MarkItDown추천

PDF를 깨끗한 마크다운 형식으로 변환

ChromaDB중립

벡터 데이터베이스(Vector Database) 저장 및 검색

text-embedding-3-small중립

텍스트 임베딩 생성

언급된 리소스

문서Vecta 공식 문서