Trust but Verify: 언어 모델의 클레임 추론을 위한 이중 속성 및 검증 프레임워크 DAVinCI 소개

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

LLM이 생성한 정보의 출처를 내부 지식과 외부 소스로부터 동시에 찾아내고 검증하는 이중 구조를 제안합니다. 이를 통해 의료나 법률 등 고위험 분야에서 AI 출력물의 신뢰성과 감사 가능성을 획기적으로 높일 수 있습니다.

왜 중요한가

핵심 기여

DAVinCI 모듈형 프레임워크 개발

LLM 추론 과정에 Attribution(속성 부여)과 Verification(검증)을 통합하여 생성된 클레임의 근거를 식별하고 진위 여부를 판별하는 모듈형 시스템을 구축했다.

이중 속성 부여 메커니즘

클레임을 내부 모델 구성 요소와 외부 소스에 동시에 연결하여 정보의 기원을 투명하게 밝히는 방식을 도입했다.

신뢰도 재보정 기술 적용

Entailment 기반 추론 결과에 임계값(Threshold)을 적용하여 모델이 확신하지 못하는 정보는 '정보 부족(NEI)'으로 분류하도록 재보정함으로써 오분류를 방지했다.

핵심 아이디어 이해하기

기존의 LLM은 Transformer 아키텍처의 Next Token Prediction 방식을 통해 유창한 문장을 생성하지만, 학습 데이터의 통계적 확률에 의존하기 때문에 사실 관계가 틀린 '환각' 현상이 빈번하게 발생한다. 기존 RAG 방식은 외부 문서를 참고하지만, 검색된 문서와 생성된 내용 사이의 논리적 함의 관계를 엄밀하게 검증하지 못하는 한계가 있다.

DAVinCI는 이를 해결하기 위해 생성된 문장을 개별 클레임 단위로 쪼갠 뒤, 각 클레임이 특정 근거 문장으로부터 논리적으로 도출되는지 확인하는 Entailment(함의) 개념을 핵심 anchor로 삼는다. 단순히 유사한 문서를 찾는 것을 넘어, 질문 답변(QA) 모델을 활용해 증거 본문에서 클레임과 직접 관련된 핵심 구절(Span)을 추출하고 이를 검증 모델의 입력으로 사용한다.

결과적으로 모델은 자신이 내뱉은 말이 '어디서 왔는지'를 명시하고, 검증 모델의 Softmax 출력값인 신뢰도 점수가 설정된 임계값보다 낮으면 과감하게 판단을 유보한다. 이러한 보수적인 의사결정 구조를 통해 사용자는 AI의 답변이 단순한 확률적 나열인지, 아니면 검증된 사실인지를 명확히 구분할 수 있게 된다.

방법론

DAVinCI는 Attribution과 Verification의 두 단계 파이프라인으로 구성된다. 첫 번째 Attribution 단계에서는 생성된 클레임 c에 대해 관련 증거 구절 집합 E를 식별한다. 이때 전체 문장을 사용하는 Full Evidence 방식과 QA 모델(roberta-base-squad2-distilled)을 사용하여 핵심 구절만 뽑아내는 Span-Based 방식을 병행하여 증거의 관련성을 극대화한다.

두 번째 Verification 단계에서는 클레임과 추출된 증거를 [Claim] [SEP] [Evidence] 형식으로 결합하여 Transformer 기반 Entailment 분류기에 입력한다. 분류기는 해당 클레임이 증거에 의해 지지되는지(Supported), 반박되는지(Refuted), 혹은 판단 불가한지(NEI)를 결정하며, 이때 출력된 확률값 s를 신뢰도 점수로 활용한다.

마지막으로 Confidence Recalibration 과정을 거친다. 특정 임계값 τ(기본값 0.6)를 설정하고, 모델의 신뢰도 s가 τ보다 낮으면 원래의 예측 결과와 상관없이 최종 레이블을 'Not Enough Info#'로 강제 전환한다. 이는 [s < τ → NEI] 연산을 통해 모델의 과잉 확신을 억제하고 정밀도를 높이는 역할을 수행한다.

주요 결과

FEVER 데이터셋 실험 결과, DAVinCI를 적용했을 때 DeBERTa-large 모델 기준 정확도가 0.42에서 0.48로 향상되었으며, Macro F1-score는 0.36에서 0.41로 상승했다. 특히 정밀도(Precision) 측면에서 0.61을 기록하며 베이스라인 대비 유의미한 성능 개선을 보였다.

CLIMATE-FEVER 데이터셋에서도 유사한 경향이 확인되었다. RoBERTa-large-snli 모델은 0.66의 정확도를 기록하며 가장 높은 성능을 보였으며, 모든 모델에서 DAVinCI 통합 후 정밀도와 재현율이 고르게 개선되었다. Ablation Study를 통해 증거 전체를 사용하는 것이 부분 구절(Span)만 사용하는 것보다 9-18% 더 높은 성능을 냄을 확인했다.

임계값 설정 실험에서는 τ=0.7일 때 가장 균형 잡힌 성능을 보였다. 임계값을 0.9까지 높일 경우 재현율은 다소 하락하지만, 잘못된 정보를 사실로 판단하는 False Positive 오류를 최소화하여 시스템의 신뢰도를 극대화할 수 있음을 입증했다.

기술 상세

DAVinCI 아키텍처는 독립적인 Attribution 모듈과 Verification 모듈을 결합한 형태다. Attribution 모듈은 코사인 유사도나 Dense Retriever 점수를 기반으로 Score_attr(c, e) = sim(c, e)를 계산하여 상위 증거를 추출한다. 연구진은 Span-based 추출을 위해 RoBERTa 기반의 QA 모델을 활용하여 증거의 밀도를 높였다.

검증 모듈은 DeBERTa, RoBERTa, BART 등 다양한 SOTA NLI 모델을 백본으로 사용할 수 있도록 설계되었다. 입력 포맷은 전형적인 문장 쌍 분류 형식을 따르며, 다중 증거가 존재할 경우 Majority Voting 또는 가중 평균을 통해 최종 결정을 내린다. 이는 분산된 증거들로부터 종합적인 결론을 도출하는 앙상블 효과를 제공한다.

이 연구의 핵심 차별점은 단순한 검증을 넘어 '신뢰도 재보정(Recalibration)'을 추론 파이프라인에 명시적으로 포함시켰다는 점이다. 이는 베이지안 불확실성 추정의 간소화된 형태로, 모델이 학습 데이터 외의 입력을 받았을 때 발생할 수 있는 Epistemic Uncertainty를 임계값 필터링으로 제어한다.

한계점

고품질의 증거 데이터가 사전에 존재한다는 가정을 전제로 하므로 증거가 부족한 오픈 도메인 환경에서는 성능이 제한될 수 있습니다. 또한 현재 구현체는 모델 내부의 가중치나 활성화 값을 추적하는 내부 속성(Internal Attribution) 분석 기능은 포함하고 있지 않습니다.

실무 활용

사실 관계 검증이 필수적인 뉴스 팩트체킹 시스템이나 법률/의료 문서 분석 도구에 즉시 통합 가능한 모듈형 구조를 갖추고 있습니다.

뉴스 기사 및 소셜 미디어 게시물의 자동 팩트체킹 파이프라인
법률 상담 챗봇의 답변 근거 제시 및 신뢰도 필터링
과학 논문 요약 시 원문 근거 일치 여부 검증 도구

코드 공개 여부: 공개

코드 저장소 보기

키워드

LLM(대형 언어 모델)Hallucination(환각)Attribution(속성 부여)Fact-checking(팩트체킹)NLI(자연어 함의 추론)

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

DAVinCI 모듈형 프레임워크 개발

이중 속성 부여 메커니즘

클레임을 내부 모델 구성 요소와 외부 소스에 동시에 연결하여 정보의 기원을 투명하게 밝히는 방식을 도입했다.

신뢰도 재보정 기술 적용

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

사실 관계 검증이 필수적인 뉴스 팩트체킹 시스템이나 법률/의료 문서 분석 도구에 즉시 통합 가능한 모듈형 구조를 갖추고 있습니다.

뉴스 기사 및 소셜 미디어 게시물의 자동 팩트체킹 파이프라인
법률 상담 챗봇의 답변 근거 제시 및 신뢰도 필터링
과학 논문 요약 시 원문 근거 일치 여부 검증 도구

코드 공개 여부: 공개

코드 저장소 보기

키워드

LLM(대형 언어 모델)Hallucination(환각)Attribution(속성 부여)Fact-checking(팩트체킹)NLI(자연어 함의 추론)

Trust but Verify: 언어 모델의 클레임 추론을 위한 이중 속성 및 검증 프레임워크 DAVinCI 소개

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

Trust but Verify: 언어 모델의 클레임 추론을 위한 이중 속성 및 검증 프레임워크 DAVinCI 소개

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드