그라운드 트루스 없이 검색 시스템 평가하기: LLM 판정과 그래프 이론의 활용

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

검색 증강 생성(RAG) 시스템에서 관련성 평가를 위한 그라운드 트루스 데이터 확보는 비용과 보안 문제로 인해 어렵다. 기존 임베딩 모델 기반 유사도 측정은 도메인 특화된 관련성을 포착하지 못하는 한계가 있다. 이를 해결하기 위해 LLM을 판정자로 활용하고, LLM 판단의 비이행성 문제를 그래프 이론으로 해결하는 방식이 제안된다. 이 방법론은 검색 결과를 유향 그래프로 구성하고 강한 연결 요소(SCC)를 축약하여 신뢰할 수 있는 순위를 도출한다.

배경

RAG 시스템 아키텍처 이해, 기본적인 그래프 이론 개념, LLM-as-a-judge 방법론에 대한 이해

대상 독자

프로덕션 환경에서 RAG 및 검색 시스템을 구축하고 평가하는 엔지니어

의미 / 영향

이 방법론은 데이터 라벨링이 어려운 전문 도메인에서 검색 시스템의 성능을 반복적으로 개선할 수 있는 실질적인 평가 파이프라인을 제공한다. 그래프 기반의 순위 도출은 LLM 판정의 논리적 모순을 해결하여 평가 지표의 신뢰성을 높인다.

섹션별 상세

검색 시스템 평가에 필요한 그라운드 트루스 확보는 도메인 전문가의 시간과 비용, 데이터 보안 문제로 인해 실무에서 큰 병목이다.

임베딩 모델은 일반적인 의미 유사도에 최적화되어 있어, 특정 도메인의 공격 패턴이나 법률적 맥락과 같은 세밀한 관련성을 판단하는 데 한계가 있다.

LLM 판정자는 루브릭을 통해 도메인 특화된 관련성 정의를 적용할 수 있으며, 교차 어텐션을 통해 쿼리와 문서 간의 복잡한 관계를 추론한다.

LLM의 판단은 비이행성(A>B, B>C, C>A)을 띠는 경우가 많아 단순 정렬 알고리즘 적용이 불가능하다.

검색 결과를 유향 그래프로 모델링하고 강한 연결 요소(SCC)를 하나의 등급으로 축약하면, 비이행성 문제를 해결하고 신뢰할 수 있는 순위 도출이 가능하다.

실무 Takeaway

그라운드 트루스가 없는 환경에서는 LLM을 판정자로 활용하고 루브릭을 명확히 정의하여 관련성을 평가한다.
LLM 판단의 비이행성 문제를 해결하기 위해 검색 결과를 그래프로 구성하고 SCC 축약을 통해 등급화한다.
평가의 신뢰도를 높이기 위해 단일 모델 대신 여러 모델의 앙상블을 사용하고, 그래프 기반 집계로 투표의 모순을 해결한다.

언급된 리소스

논문Large Language Models can Accurately Predict Searcher Preferences

논문Judging the Judges: A Collection of LLM-Generated Relevance Judgements

논문BlitzRank: Principled Zero-shot Ranking Agents with Tournament Graphs