CUE-R: 검색 증강 생성에서 최종 답변을 넘어선 증거 항목별 운영 유틸리티 측정

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 RAG 평가는 최종 답변의 정답 여부에만 치중하여 검색된 개별 문서가 실제 추론 과정에서 어떤 역할을 하는지 파악하기 어려웠다. CUE-R은 개별 증거 항목에 대한 개입 분석을 통해 모델의 행동 변화를 다각도로 측정함으로써 RAG 시스템의 신뢰성과 내부 동작을 더 정밀하게 진단할 수 있게 한다.

왜 중요한가

핵심 기여

CUE-R 개입 기반 평가 프레임워크

검색된 개별 증거 항목을 삭제(REMOVE), 교체(REPLACE), 복제(DUPLICATE)하는 세 가지 연산자를 통해 모델의 추론 궤적과 유틸리티 변화를 측정하는 경량 프레임워크를 제안했다.

다축 유틸리티 및 추론 궤적 발산 측정

단순 정답률을 넘어 근거 충실도(Grounding Faithfulness), 신뢰도 오차(Confidence Error), 추론 궤적 발산(Trace Divergence)을 포함하는 다차원 평가 지표를 도입했다.

운영 증거 역할 분류 체계 수립

개입 결과에 따라 증거의 역할을 Constructive, Corrective, Redundant, Distractive, Confidence-distorting으로 분류하는 체계를 정의하여 모델 행동을 해석 가능하게 했다.

증거 간 비가산적 상호작용 발견

Multi-hop 질문에서 두 개의 핵심 증거를 동시에 제거했을 때의 성능 저하가 개별 제거 시의 합보다 훨씬 큰 비가산적(Non-additive) 상호작용이 존재함을 실험으로 입증했다.

핵심 아이디어 이해하기

기존 RAG 시스템은 Transformer의 Attention Mechanism을 통해 입력된 컨텍스트와 질문 간의 관계를 계산하여 답변을 생성한다. 하지만 최종 답변이 정답이라고 해서 모델이 제공된 증거를 올바르게 참조했는지는 알 수 없으며, 때로는 모델 내부의 파라미터 지식에만 의존하는 '할루시네이션'이 발생하기도 한다. CUE-R은 이러한 블랙박스 구조를 파악하기 위해 특정 증거를 의도적으로 변형시킨 후 모델의 반응을 살피는 '개입(Intervention)' 전략을 취한다.

핵심 원리는 특정 증거 항목 $e_i$ 를 제거하거나 노이즈로 교체했을 때, 모델이 생성하는 중간 추론 로그(Trace)와 최종 출력의 확률 분포가 어떻게 변하는지 관찰하는 것이다. 예를 들어 핵심 증거를 제거했는데도 답변이 변하지 않는다면 모델은 해당 증거를 무시하고 있는 것이며, 증거를 복제했을 때 답변은 같지만 모델의 확신도(Confidence)가 변한다면 이는 잠재적인 행동 변화를 시사한다.

결과적으로 CUE-R은 정답률이라는 단일 지표 뒤에 숨겨진 모델의 취약성을 드러낸다. 실험 결과 REMOVE와 REPLACE 연산은 정답률과 근거 충실도를 급격히 떨어뜨리는 반면, DUPLICATE 연산은 정답률에는 영향이 없더라도 모델의 신뢰도 오차를 유발하는 등 답변만으로는 알 수 없던 미세한 행동 변화를 수치화하여 보여준다.

방법론

CUE-R은 질문 $q$ , 검색된 증거 집합 $R(q, C)$ , 그리고 모델이 생성한 관찰 가능한 추론 궤적 $\tau$ 를 입력으로 받는다. 추론 궤적 $\tau$ 는 검색, 선택, 검증, 추론, 답변 등의 행동 시퀀스와 각 단계의 상태 스냅샷으로 구성된다. [ $(s_0, a_1), ..., s_T, y, c$ 를 입력으로] → [개입 연산자 $I$ 를 적용해 변형된 증거 세트를 생성하고] → [새로운 카운터팩추얼 궤적 $\tilde{\tau}$ 를 얻어] → [두 궤적 간의 차이를 계산한다].

개입 연산자는 세 가지로 정의된다. REMOVE( $I_{rem}$ )는 대상 증거를 완전히 삭제하여 필요성을 테스트한다. REPLACE( $I_{rep}$ )는 주제는 유사하지만 정답을 지원하지 않는 구절로 교체하여 오도하는 정보에 대한 강건성을 테스트한다. DUPLICATE( $I_{dup}$ )는 동일 증거를 중복 삽입하여 중복성에 대한 민감도를 테스트한다.

유틸리티 변화량 $\Delta^{(k)}$ 는 원본 궤적의 유틸리티 $U_k(\tau)$ 에서 개입 후 유틸리티 $U_k(\tilde{\tau})$ 를 뺀 값으로 정의된다. [ $U_{corr}, U_{grnd}, U_{cal}$ 값을 입력으로] → [각 축별 차이값을 계산하여] → [ $\Delta$ 값을 얻고] → [이 값이 클수록 해당 증거가 해당 유틸리티 축에 기여하는 바가 큼을 의미한다]. 또한 추론 궤적 발산 $D(\tau, \tau')$ 은 Jaccard 유사도, 답변 변경 여부, 확신도 변화의 가중합으로 계산되어 모델의 행동 변화를 정량화한다.

주요 결과

HotpotQA 데이터셋에서 Qwen-3 8B 모델을 대상으로 실험한 결과, 원본 정답률(Correctness) 0.585가 REMOVE 개입 시 0.285, REPLACE 개입 시 0.270으로 급격히 하락했다. 이는 검색된 증거가 모델의 정답 생성에 결정적인 역할을 하고 있음을 보여준다. 반면 DUPLICATE 개입 시 정답률은 0.585로 유지되었으나, 추론 궤적 발산(Trace Div.)은 0.074로 나타나 모델 내부의 증거 선택 패턴이 변했음을 시사했다.

GPT-5.2 모델을 이용한 교차 모델 검증에서도 유사한 경향이 관찰되었다. GPT-5.2는 원본 정답률 0.690으로 더 높은 성능을 보였으나, REMOVE 시 0.480, REPLACE 시 0.490으로 하락하며 CUE-R이 고성능 모델에서도 유효한 진단 도구임을 입증했다. 특히 근거 충실도(Grounding) 점수는 REMOVE 시 0.878에서 0.575로 크게 떨어졌다.

Two-support Ablation 실험에서는 Multi-hop 추론의 특이점이 발견되었다. 두 개의 핵심 증거를 각각 제거했을 때의 F1 점수 하락폭은 0.205와 0.186이었으나, 두 개를 동시에 제거했을 때는 0.493으로 급증했다. 이는 전체 사례의 19.6%에서 증거 간의 비가산적 상호작용(Synergy)이 발생하며, 단일 증거 개입만으로는 RAG 시스템의 의존성을 과소평가할 수 있음을 나타낸다.

기술 상세

CUE-R은 모델의 내부 가중치나 Hidden State에 접근하지 않는 Black-box 개입 방식을 채택하여 범용성을 확보했다. 시스템이 외부로 노출하는 'Shallow Trace'(사용된 청크 ID, 후보 답변, 확신도 점수 등)만을 활용하므로 API 기반 모델(GPT-5.2 등)에도 적용 가능하다. 추론 궤적 발산 함수는 Jaccard Divergence를 사용하여 사용된 증거 세트의 변화를 측정하고, 지시 함수(Indicator Function)를 통해 답변의 일치 여부를 반영한다.

실험에 사용된 Qwen-3 8B와 GPT-5.2 모델은 모두 온도(Temperature) 0으로 설정되어 결정론적 출력을 유도했다. 검색 엔진으로는 BM25를 사용해 상위 5개의 청크를 추출했으며, 정답 판정에는 Exact Match와 F1 스코어 외에도 수치 정규화 및 Soft Matching 기법을 적용해 평가의 객관성을 높였다. 특히 'Confidence Error'는 모델이 스스로 보고한 확신도와 실제 정답 여부 간의 절대 오차를 측정하여 모델의 자기 인식(Self-awareness) 능력을 평가 지표에 포함시켰다.

한계점

본 연구는 개입을 통한 민감도 분석에 집중하며 강한 인과 관계(Strong Causality)를 주장하지는 않는다. 또한 현재 구현체는 단일 단계 RAG(Single-shot)에 최적화되어 있어, 복잡한 다단계 에이전트 워크플로우에서의 심층적인 추론 궤적 분석에는 한계가 있을 수 있다. 근거 충실도 측정 시 제목 기반의 Proxy를 사용하므로 문장 단위의 정밀한 속성(Attribution) 분석은 향후 과제로 남아있다.

실무 활용

CUE-R은 RAG 시스템 개발자가 자신이 구축한 파이프라인의 신뢰성을 정밀 진단하는 데 즉시 활용 가능하다. 특히 답변의 정확도만으로는 파악되지 않는 모델의 증거 무시 현상이나 중복 정보에 의한 혼란을 감지하는 데 유용하다.

RAG 파이프라인의 검색 결과 중 어떤 문서가 실제 답변 생성에 기여하는지 기여도 분석
모델이 잘못된 검색 결과(Distractor)에 얼마나 취약한지 강건성 테스트
중복된 정보가 입력되었을 때 모델의 확신도 변화를 모니터링하여 서빙 안정성 평가
Multi-hop 추론이 필요한 복잡한 QA 시스템에서 증거 간의 논리적 결합도 진단

코드 공개 여부: 공개

코드 저장소 보기

키워드

RAG(검색 증강 생성)Intervention(개입 분석)Operational Utility(운영 유틸리티)Trace Divergence(궤적 발산)Faithfulness(충실도)Multi-hop QA(다단계 질의응답)