핵심 요약
7가지 RAG 청킹 전략을 비교 실험한 결과, 복잡한 최신 기법보다 512 토큰 단위의 재귀적 문자 분할(Recursive Character Splitting)이 가장 높은 정확도를 보였습니다.
배경
Vecta R&D 팀이 RAG 시스템 구축 시 가장 고민되는 요소인 청킹(Chunking) 전략의 실질적인 성능을 검증하기 위해 50편의 학술 논문을 대상으로 실험을 진행하고 그 결과를 공유한 글입니다.
의미 / 영향
이 토론은 RAG 시스템 설계 시 최신 유행 기법을 맹목적으로 따르기보다 데이터의 특성과 생성 모델의 문맥 수용 능력을 고려한 기초적인 접근이 더 중요함을 시사합니다. 특히 공정한 벤치마크 방법론의 제시는 향후 커뮤니티 내 RAG 성능 평가 표준에 긍정적인 영향을 미칠 것으로 보입니다.
커뮤니티 반응
실험 설계의 엄격함과 특히 동일 컨텍스트 예산(Equal Context Budget)을 적용한 점에 대해 커뮤니티의 높은 평가를 받고 있습니다. 많은 개발자가 복잡한 최신 기법보다 기본 기법이 더 효과적이라는 결과에 공감하며 자신의 경험을 공유하고 있습니다.
주요 논점
재귀적 분할 방식이 문맥 보존 능력이 뛰어나며 실무에서 가장 안정적인 성능을 보여준다는 주장에 동의합니다.
세맨틱 청킹이 실패한 이유는 리랭커(Reranker)나 계층적 검색(Hierarchical Retrieval)과 결합되지 않았기 때문일 수 있다는 의견이 있습니다.
합의점 vs 논쟁점
합의점
- 청킹 전략 비교 시 검색되는 총 토큰 수를 동일하게 맞추는 것이 공정한 비교의 핵심입니다.
- 학술 논문처럼 밀도가 높은 텍스트에서는 문맥의 일관성을 유지하는 것이 답변 품질에 결정적입니다.
논쟁점
- 세맨틱 청킹의 임계값(Threshold)을 더 정교하게 튜닝했을 때의 성능 잠재력에 대해서는 의견이 갈립니다.
- 합성 데이터(Synthetic Data) 기반의 평가가 실제 인간의 평가와 얼마나 일치할지에 대한 논의가 있습니다.
실용적 조언
- LangChain의 RecursiveCharacterTextSplitter를 사용하고 청크 크기는 512, 오버랩은 50 정도로 시작하세요.
- PDF 문서를 처리할 때는 MarkItDown과 같은 도구를 사용하여 마크다운(Markdown)으로 변환한 뒤 구조를 파악하여 청킹하는 것이 좋습니다.
- 자체 벤치마크를 수행할 때는 'target_tokens / avg_chunk_tokens' 공식을 사용하여 각 전략의 검색 개수(k)를 조정하세요.
전문가 의견
- Vecta R&D 팀은 세맨틱 청킹이 이론적으로는 우수해 보이지만, 실제로는 임계값 튜닝이 매우 까다롭고 조금만 어긋나도 성능이 급격히 저하되는 취약성(Brittleness)을 가지고 있다고 지적합니다.
언급된 도구
RAG 파이프라인 평가 및 벤치마크 생성
PDF를 깨끗한 마크다운 형식으로 변환
벡터 데이터베이스(Vector Database) 저장 및 검색
텍스트 임베딩 생성
섹션별 상세
실무 Takeaway
- RAG 시스템 구축 시 기본값으로 512 토큰 크기의 재귀적 문자 분할(Recursive Character Splitting)을 권장합니다.
- 벤치마크 시 단순히 상위 K개를 비교하지 말고, 전체 토큰 양을 맞춘 적응적 K(Adaptive k) 방식을 사용해야 공정한 평가가 가능합니다.
- 세맨틱 청킹은 텍스트를 과도하게 파편화하여 생성 모델의 문맥 이해를 방해할 위험이 크므로 주의가 필요합니다.
- 정확한 답변 생성이 목표라면 작은 청크(512 토큰)를, 관련 문서 식별이 목표라면 큰 청크(1024 토큰 이상)를 선택하는 것이 유리합니다.
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.