RAG 에이전트의 검색 공백으로 인한 할루시네이션 진단 및 블라인드 평가 워크플로

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

RAG 시스템에서 검색 데이터가 부족할 때 발생하는 할루시네이션을 진단하기 위해 서로 다른 모델군의 LLM 판사들을 활용한 오픈소스 블라인드 평가 아키텍처를 제안한다.

배경

RAG 에이전트가 메뉴판에 없는 알레르기 정보를 마치 있는 것처럼 자신 있게 답변하는 문제를 발견하고, 이를 객관적으로 측정 및 개선하기 위해 다중 모델 판사 기반의 평가 시스템을 구축하여 공유했다.

의미 / 영향

이 토론은 RAG 시스템의 한계가 단순히 검색 알고리즘의 문제가 아니라 검색 결과가 불충분할 때 발생하는 모델의 과잉 친절(할루시네이션)에 있음을 시사한다. 이를 해결하기 위해 다중 모델 판사를 활용한 엄격한 블라인드 테스트 체계를 구축하는 것이 프로덕션 수준의 AI 에이전트 개발에서 표준 관행이 되어야 함을 보여준다.

커뮤니티 반응

작성자가 직접 구축한 오픈소스 평가 도구와 구체적인 실험 방법론에 대해 실무적인 관심이 높으며, 특히 RAG의 고질적인 문제인 '자신감 있는 오답'을 측정하는 방식에 긍정적인 반응이다.

주요 논점

01찬성다수

RAG 에이전트의 신뢰성을 위해서는 검색 공백 상황에서의 블라인드 테스트와 다중 모델 평가가 필수적이다

합의점 vs 논쟁점

합의점

단순히 프롬프트를 수정하는 것보다 시스템적인 평가 루프를 구축하는 것이 RAG 개선에 더 중요하다
LLM 판사를 활용할 때는 모델 간의 계보를 고려하여 편향을 제거해야 한다

실용적 조언

RAG 평가 시 판사 모델로 Anthropic 모델을 썼다면 생성 모델은 DeepSeek나 OpenAI 모델을 사용하여 교차 검증하라
모델이 '모른다'고 답해야 할 상황을 강제하기 위해 '증거의 부재는 부재의 증거가 아니다'라는 지시어를 시스템 프롬프트나 외부 하네스에 포함하라

섹션별 상세

RAG 에이전트가 검색된 문서 내에 답이 없을 때 '모른다'고 답하는 대신 패턴 매칭을 통해 그럴듯한 오답을 생성하는 현상이 확인됐다. 지중해 식단 메뉴를 기반으로 한 테스트에서 '견과류 알레르기' 질문에 대해 메뉴에 언급이 없다는 이유만으로 안전하다고 확신하며 답변하는 위험한 실패 사례가 발생했다. 이는 모델이 기본적으로 '도움이 되어야 한다'는 훈련을 받았기 때문에 발생하는 구조적인 검색 공백 문제이다.

이러한 문제를 정량화하기 위해 두 개의 동일한 에이전트(대조군과 실험군)를 병렬로 실행하고 결과를 익명화하여 비교하는 블라인드 평가 아키텍처를 설계했다. 실험군에만 런타임 추론 하네스인 Ejentum을 연결하여 변수를 통제하고, 두 응답을 코드 노드에서 익명화한 뒤 원본 검색 청크와 함께 판사들에게 전달한다. 이 과정에서 판사들은 어떤 응답이 도구를 사용했는지 알 수 없는 상태로 증거 기반의 평가를 수행한다.

평가의 객관성을 확보하기 위해 Kimi K2, Sonnet 3.7, MiniMax 2.5, DeepSeek V4 Flash 등 서로 다른 제조사의 모델 4개를 판사로 기용했다. 특정 모델군에 편향되지 않도록 교차 검증 설계를 적용했으며, 각 판사는 인용 정확성, 근거 기반성, 불확실성 하에서의 정직성 등 5가지 차원의 루브릭을 적용해 JSON 형식으로 점수를 반환한다. 최종 통계는 LLM이 아닌 결정론적 코드 로직으로 집계하여 수치 조작 가능성을 차단했다.

markdown

Amplify: absence of evidence is not evidence of absence acknowledgment.
Suppress: confident denial without exhaustive check; definitive negation from absence of knowledge.

검색 공백 상황에서 모델의 할루시네이션을 억제하기 위해 외부 하네스가 주입하는 지시어 예시

실제 5개의 고난도 질문으로 테스트한 결과, 알레르기 안전성 질문에서 4명의 판사 중 3명이 하네스를 적용한 에이전트가 더 안전한 선택이라고 평가했다. 하네스가 적용된 에이전트는 '증거의 부재가 부재의 증거는 아니다'라는 원칙을 적용하여 메뉴에서 확인할 수 없는 정보에 대해 인증을 거부했다. 반면 기본 에이전트는 언급이 없다는 사실을 근거로 안전 리스트를 생성하는 오류를 범했다.

실무 Takeaway

RAG 시스템의 성능 평가는 단순 정확도가 아니라 검색 데이터에 답이 없을 때 모델이 얼마나 정직하게 대응하는지를 포함해야 한다
LLM-as-a-Judge 구현 시 자기 편향을 방지하기 위해 반드시 평가 대상과 다른 가문의 모델들을 판사로 구성하는 Cross-family 전략이 필요하다
최종 평가 보고서의 통계 집계 단계에서 LLM을 배제하고 결정론적 코드를 사용해야 데이터 날조(Fabrication)를 방지할 수 있다
프롬프트 외부에서 런타임에 주입되는 추론 가이드라인(Harness)이 긴 체인에서도 모델의 답변 규율을 유지하는 데 효과적이다

언급된 도구

Qdrant중립

벡터 데이터베이스 저장 및 검색

Ejentum추천

런타임 추론 제어 및 할루시네이션 억제 하네스

n8n추천

워크플로 자동화 및 평가 파이프라인 구축

언급된 리소스

GitHubRAG Blind Eval Repo

문서Reference Findings & Raw Data