RAG 성능 평가 및 진단 가이드: RAG Triad와 LLM-as-a-Judge 활용법

핵심 요약

RAG 시스템이 잘못된 답변을 내놓을 때 결과물만으로는 검색 실패인지 생성 실패인지 구분하기 어렵다는 문제가 있습니다. 이 글은 검색 컨텍스트의 관련성, 생성의 성실성, 답변의 적절성을 측정하는 RAG Triad 프레임워크를 통해 문제를 개별적으로 진단하는 방법을 제시합니다. 특히 기존의 결정론적 지표를 대체하는 LLM-as-a-Judge 방식과 Opik과 같은 도구를 활용한 실무 워크플로우를 상세히 설명합니다. 이를 통해 개발자는 단순한 성능 측정을 넘어 시스템의 취약점을 파악하고 지속적으로 개선할 수 있는 기반을 마련합니다.

배경

RAG(Retrieval-Augmented Generation) 기본 아키텍처 이해, LLM API 및 프롬프트 엔지니어링 기초 지식, 기본적인 정보 검색(Information Retrieval) 지표에 대한 이해

대상 독자

프로덕션 환경에서 RAG 기반 AI 애플리케이션을 개발하고 성능을 최적화하려는 엔지니어 및 데이터 과학자

의미 / 영향

RAG 평가가 단순한 점수 측정을 넘어 정밀한 진단 도구로 진화함에 따라 기업들은 더 안전하고 신뢰할 수 있는 AI 서비스를 구축할 수 있게 됩니다. 특히 Opik과 같은 오픈소스 도구의 보급은 중소 규모 팀도 고도화된 평가 파이프라인을 갖출 수 있게 하여 LLM 애플리케이션의 품질 상향 평준화를 이끌 것입니다.

섹션별 상세

RAG 시스템이 잘못된 답변을 생성할 때 그 원인은 검색기가 관련 문서를 놓쳤거나 모델이 환각을 일으켰거나 질문과 무관한 답변을 생성했기 때문일 수 있습니다. 이러한 실패 모드들은 외부에서 볼 때 동일하게 나타나지만 해결책은 완전히 다르므로 검색과 생성을 독립적으로 테스트하는 분리된 평가(Disaggregated evaluation)가 필수적입니다. 예를 들어 검색 실패는 데이터 청킹 전략 수정을 요구하지만 생성 실패는 프롬프트 엔지니어링 개선이 필요합니다.

효과적인 진단을 위해 컨텍스트 관련성(Context Relevance), 성실성(Faithfulness), 답변 관련성(Answer Relevance)이라는 세 가지 관계를 측정하는 RAG Triad 프레임워크를 도입해야 합니다. 컨텍스트 관련성은 검색된 문서가 질문에 적합한지 확인하며 성실성은 생성된 답변이 검색된 내용에만 기반하는지 검증하여 환각을 방지합니다. 마지막으로 답변 관련성은 최종 결과물이 사용자의 원래 의도와 질문에 실제로 부합하는지를 평가하여 파이프라인 전체의 유효성을 확인합니다.

BLEU나 ROUGE 같은 기존 지표는 단어의 중첩만을 측정하여 의미적 정확성을 놓치는 한계가 있어 최근에는 고성능 LLM을 평가자로 사용하는 LLM-as-a-Judge 방식이 주류가 되었습니다. G-Eval이나 Prometheus 같은 프레임워크는 사고의 사슬(Chain-of-Thought) 추론을 통해 평가 기준을 생성하고 점수를 매김으로써 인간 평가자와 높은 상관관계를 보여줍니다. 이러한 방식은 문장 구조가 다르더라도 의미가 동일한 답변을 정확하게 긍정적으로 평가하는 장점이 있습니다.

RAG Triad 외에도 검색기의 설정을 미세 조정하기 위해 Recall@K, Precision@K, MRR, NDCG와 같은 전통적인 정보 검색(Information Retrieval) 지표가 활용됩니다. 이러한 지표들은 청크 크기나 임베딩 모델 선택이 검색 결과의 순위와 포괄성에 미치는 영향을 수치화하여 LLM의 컨텍스트 윈도우에 노이즈가 섞이는 것을 방지합니다. 특히 검색 결과의 순서가 모델 성능에 영향을 미치는 Lost in the Middle 현상을 해결하기 위해 MRR과 같은 순위 기반 지표가 중요하게 다뤄집니다.

신뢰할 수 있는 평가를 위해서는 실제 사용 사례를 반영한 쿼리-답변 쌍 데이터셋을 조기에 구축해야 하며 여기에는 시스템이 거절해야 하는 부정적 사례도 포함되어야 합니다. 전문가의 주석이 이상적이지만 비용이 많이 들기 때문에 LLM을 이용해 문서에서 질문을 생성하는 합성 데이터(Synthetic Data) 기법을 병행하여 테스트 범위를 확장합니다. 다만 프로덕션 배포 전에는 반드시 인간이 검증한 골든 데이터셋(Gold Dataset)을 통해 최종 성능을 확인하는 과정이 필요합니다.

CometML의 Opik 프레임워크를 사용하면 RAG Triad 지표를 코드로 구현하고 CI/CD 파이프라인에 통합하여 배포 전 성능 저하를 자동으로 감지할 수 있습니다. 실험 설정을 태깅하여 다양한 모델이나 하이퍼파라미터 변경에 따른 결과를 비교하고 운영 환경의 트레이스를 모니터링하여 실제 실패 사례를 즉각 분석합니다. 이러한 도구는 개발 단계의 실험과 운영 단계의 관측성을 하나로 연결하여 지속적인 품질 관리를 가능하게 합니다.

프로덕션 환경의 RAG 시스템은 간접 프롬프트 주입(Indirect Prompt Injection)이나 지식 베이스 오염(Knowledge Base Poisoning)과 같은 새로운 공격 벡터에 노출되어 있습니다. 따라서 시스템이 악의적인 지침을 무시하고 도메인 밖의 질문에 대해 우아하게 거절(Graceful Refusal)하는지 확인하는 적대적 테스트가 반드시 수반되어야 합니다. 질문의 표현이 바뀌어도 일관된 답변을 유지하는지 검증하는 것은 시스템의 신뢰성을 확보하는 핵심 단계입니다.

</> 코드 예제 포함

실무 Takeaway

RAG 시스템 개선을 위해 검색과 생성을 분리하여 평가하는 RAG Triad 프레임워크를 도입하여 실패 지점을 명확히 격리해야 합니다.
단순 단어 매칭 지표 대신 LLM-as-a-Judge를 활용하여 답변의 의미적 정확성과 환각 여부를 정밀하게 측정하고 자동화합니다.
합성 데이터로 테스트 범위를 넓히되 고위험 도메인에서는 반드시 인간이 검증한 골든 데이터셋으로 최종 성능을 확정합니다.
간접 프롬프트 주입과 같은 RAG 특유의 보안 취약점을 방어하기 위해 적대적 평가를 테스트 스위트에 포함시켜야 합니다.

언급된 리소스

GitHubOpik GitHub Repository

논문G-Eval: NLG Evaluation using GPT-4 with Better Explainability

논문Prometheus: Inducing Fine-grained Evaluation Capability in Language Models