RAG 할루시네이션의 90%는 모델이 아닌 검색 단계의 문제이다

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

RAG 시스템의 할루시네이션 문제는 대부분 모델 성능보다 청킹, 메타데이터 필터링, 유사도 임계값, 쿼리 최적화 등 검색 전략의 부재에서 발생한다.

배경

RAG 시스템 구축 시 발생하는 할루시네이션의 원인을 분석하고, 모델 교체나 파인튜닝에 앞서 검색 품질을 개선할 수 있는 구체적인 4가지 전략을 제시하기 위해 작성되었다.

의미 / 영향

RAG 시스템 운영 시 발생하는 문제는 기술적 모델 성능의 한계보다 데이터 전처리 및 검색 로직의 설계 미숙에서 기인하는 경우가 많다. 따라서 고비용의 파인튜닝이나 상위 모델 교체에 앞서 청킹 전략과 검색 필터링 고도화에 집중하는 것이 실무적으로 가장 효율적인 접근법이다.

커뮤니티 반응

많은 사용자가 모델 교체보다 검색 파이프라인 최적화가 우선이라는 점에 동의하며 실무적인 공감을 표시했다.

주요 논점

01찬성다수

RAG 성능 개선의 핵심은 검색 품질이며, 제시된 4가지 전략은 비용 대비 효과가 매우 높다.

합의점 vs 논쟁점

합의점

단순히 상위 K개를 가져오는 방식은 할루시네이션의 위험이 크다.
청킹 전략은 데이터의 특성에 맞춰 세밀하게 조정되어야 한다.

실용적 조언

고정 길이 청킹 대신 단락이나 의미 기반 청킹을 먼저 시도해라.
검색 결과가 임계값 미만일 경우 '모름'을 출력하도록 시스템 프롬프트와 로직을 수정해라.
검색 성능이 낮다면 HyDE를 적용해 쿼리 임베딩의 품질을 높여라.

섹션별 상세

고정 길이 기반의 청킹 전략이 정보 단절과 할루시네이션의 주요 원인으로 지목됐다. 핵심 사실이 두 청크로 나뉘어 저장되면 검색 시 절반의 정보만 전달되어 모델이 나머지 내용을 임의로 채우게 된다. 의미 단위(Semantic)나 단락 기반 청킹으로 전환하는 것만으로도 오답률을 40~50% 줄일 수 있다는 실무 경험이 공유됐다.

메타데이터 필터링 부재로 인해 과거 데이터가 최신 질문에 답변으로 활용되는 문제가 발생한다. 검색 전 날짜, 부서, 제품 버전 등의 메타데이터를 활용해 범위를 좁히지 않으면 검색기가 2021년 정책을 2024년 질문의 근거로 가져올 수 있다. 모든 청크에 소스 정보를 태깅하고 쿼리 시점에 필터를 적용하는 구조가 필수적이다.

검색 결과의 유사도 점수에 대한 임계값(Threshold) 설정이 할루시네이션 방지에 결정적이다. 대부분의 시스템은 관련성이 낮더라도 상위 K개의 청크를 무조건 모델에 전달하지만, 코사인 유사도가 0.52 수준인 낮은 품질의 정보는 모델의 오답을 유도한다. 차라리 정보를 찾지 못했다고 답변하게 하는 것이 신뢰도 측면에서 유리하다.

질문 형태의 쿼리와 진술 형태의 문서 간 불일치를 해결하기 위해 HyDE나 리랭커 도입이 권장됐다. 임베딩 공간에서 질문과 답변은 서로 다르게 취급될 수 있으므로 가상의 답변을 생성해 검색하거나 검색 후 재순위화 단계를 거치는 것이 효과적이다. 이는 모델 파인튜닝보다 적은 비용으로 높은 성능 향상을 기대할 수 있는 방법이다.

실무 Takeaway

RAG 시스템의 성능 병목은 LLM 자체보다 검색(Retrieval) 단계에서 발생하는 경우가 압도적으로 많다.
의미 단위 청킹으로 전환하면 정보 단절을 막아 할루시네이션 오답을 최대 50%까지 개선할 수 있다.
검색 결과에 최소 유사도 임계값을 적용하여 관련 없는 정보가 모델에 입력되는 것을 차단해야 한다.
HyDE 기법이나 리랭커를 활용하면 질문과 문서 간의 의미적 간극을 메워 검색 정확도를 높일 수 있다.

언급된 도구

RAG추천

검색 증강 생성 시스템 아키텍처