첫 번째 토큰이 답을 알고 있다: 환각 탐지를 위한 단일 디코딩 신뢰도

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

LLM의 환각을 탐지하기 위해 기존에는 여러 번 답변을 생성하여 비교하는 고비용 방식이 주로 사용되었다. 이 논문은 답변의 첫 번째 핵심 토큰이 생성될 때의 확률 분포(Entropy)만 확인해도 기존의 복잡한 방식과 대등하거나 더 나은 성능을 낼 수 있음을 입증하여 추론 비용을 획기적으로 줄일 수 있는 길을 열었다.

왜 중요한가

핵심 기여

첫 번째 토큰 신뢰도(phi_first) 지표 제안

답변의 첫 번째 의미 있는 토큰 위치에서 상위 K개 로짓의 정규화된 엔트로피를 계산하여 모델의 불확실성을 측정하는 단순하고 효율적인 지표를 정의했다.

샘플링 기반 방식 대비 1/11 수준의 비용 효율성

10번의 추가 샘플링과 NLI 모델을 통한 클러스터링이 필요한 Semantic Self-consistency 방식과 비교하여, 단 한 번의 그리디 디코딩만으로 유사한 AUROC 성능을 달성했다.

의미론적 일관성 정보의 내재화 입증

Subsumption 테스트를 통해 첫 번째 토큰의 신뢰도가 여러 샘플 간의 의미론적 합의(Semantic Agreement) 정보를 이미 상당 부분 포함하고 있음을 통계적으로 증명했다.

핵심 아이디어 이해하기

LLM이 답변을 생성할 때 Softmax 함수를 통해 다음 토큰의 확률 분포를 계산한다. 기존의 'Self-consistency' 기법은 모델에게 여러 번 답을 시켜보고 그 답들이 서로 일치하는지를 확인하여 확신도를 측정했다. 이는 마치 여러 명의 전문가에게 물어보고 의견이 일치하는지 보는 것과 같아 정확하지만, 답변을 여러 번 생성해야 하므로 시간과 비용이 많이 든다.

이 논문은 모델이 답변을 시작하는 '첫 번째 핵심 토큰'에 주목한다. 예를 들어 '호주의 수도는?'이라는 질문에 모델이 'Canberra'라고 답하기 시작할 때, 첫 글자 'Can'에 확률이 압도적으로 몰려 있다면 모델은 이미 내부적으로 확신을 가진 상태다. 반면 여러 후보 토큰에 확률이 분산되어 있다면 모델 스스로도 답을 모른 채 무작위로 선택하고 있을 가능성이 높다.

결과적으로 답변 전체를 다 생성해서 비교해 보지 않더라도, 답변의 시작점에서 모델이 보여주는 '망설임(Entropy)'의 정도만 측정하면 그 답변이 환각(오답)일지 아닐지를 매우 정확하게 예측할 수 있다. 이는 복잡한 사후 처리 없이 모델의 내부 로짓(Logit) 정보만 활용하므로 매우 효율적이다.

방법론

단일 그리디 디코딩(Greedy Decode) 과정에서 발생하는 로짓을 활용한다. 먼저 답변의 시작 부분에서 공백, 문장 부호, 'Answer:'와 같은 템플릿 접두사를 제외한 첫 번째 실질적인 콘텐츠 토큰 위치 t*를 식별한다.

해당 위치 t*에서 상위 K(K=100)개의 로짓 값에 Softmax를 적용하여 확률 분포 p를 구한다. [입력으로 상위 100개 로짓을 받아] → [Softmax 연산 후 정규화된 엔트로피 H를 계산하고] → [이를 1 - (H / log K) 수식에 대입하여] → [0에서 1 사이의 phi_first 신뢰도 값을 얻는다]. 이 값의 의미는 1에 가까울수록 모델이 해당 토큰 선택에 강력한 확신을 가졌음을 나타낸다.

비교를 위해 10개의 샘플을 생성하여 의미론적 유사성을 측정하는 Semantic AU와 텍스트 일치도를 보는 AU-full 등의 베이스라인을 설정했다. Semantic AU는 DeBERTa-v3-large-mnli 모델을 사용하여 생성된 답변들 간의 함의(Entailment) 관계를 분석하고 클러스터링하는 과정을 거친다.

주요 결과

Llama-3.1-8B, Mistral-7B, Qwen2.5-7B 모델을 대상으로 PopQA 및 TriviaQA 데이터셋에서 실험한 결과, phi_first는 평균 0.820의 AUROC를 기록했다. 이는 10배 이상의 연산이 필요한 Semantic AU(0.793)와 AU-full(0.791)보다 높은 수치이다.

PopQA 데이터셋에서 phi_first는 Semantic AU 대비 평균 +0.036 AUROC 향상을 보였으며, TriviaQA에서는 +0.016 향상을 기록했다. 특히 Mistral-7B 모델의 PopQA 실험에서는 기존 방식보다 0.064 포인트 높은 성능을 보여 단일 디코딩 지표의 우수성을 입증했다.

통계적 분석 결과, phi_first와 Semantic AU 간의 피어슨 상관계수는 0.54~0.76으로 나타났다. 두 지표를 결합한 앙상블 모델의 성능 향상은 phi_first 단독 사용 대비 +0.021에 불과하여, 첫 번째 토큰의 신뢰도가 샘플링 기반 방식의 변별력을 대부분 대체할 수 있음을 확인했다.

기술 상세

phi_first는 모델의 파라미터 지식(Parametric Knowledge)에 의존하는 폐쇄형 질의응답(Closed-book QA) 상황에서 특히 강력한 성능을 발휘한다. 이는 모델이 첫 번째 토큰을 생성하는 시점에 이미 특정 엔티티나 관계에 대한 '최초의 약속(Earliest Commitment)'을 하기 때문이다.

수학적으로는 상위 K개 로짓의 정규화된 엔트로피를 사용함으로써, 전체 어휘 사전(Vocabulary)에 대한 계산 부담을 줄이면서도 유의미한 확률 분포의 집중도를 포착한다. K=100 설정은 계산 효율성과 정보 보존 사이의 균형을 맞춘 수치이다.

기존 연구에서 지적된 '답변 길이와 신뢰도의 상관관계(Length Confound)' 문제를 부분 상관 분석(Partial Correlation)으로 검증했다. 분석 결과, phi_first와 답변 길이 사이의 상관관계는 정답 여부(Correctness)를 통제했을 때 대부분 사라졌으며, 이는 phi_first가 단순히 짧은 답변을 선호하는 것이 아니라 실제 지식의 유무를 반영하고 있음을 시사한다.

한계점

이 연구는 영어 기반의 단답형 사실 관계 질의응답에 국한되어 있다. 긴 문장 생성, 멀티홉 추론, 수학적 문제 해결 또는 외부 문서를 참조하는 RAG 환경에서는 첫 번째 토큰만으로 전체 답변의 신뢰도를 대표하기 어려울 수 있다. 또한 로짓 정보에 접근할 수 없는 블랙박스 API(예: GPT-4 유료 API) 환경에서는 적용이 불가능하다.

실무 활용

LLM 기반 서비스에서 답변의 신뢰도를 실시간으로 판단하여 사용자에게 경고를 주거나 검색(RAG)을 트리거하는 용도로 즉시 활용 가능하다.

실시간 챗봇 답변의 환각 가능성을 추가 비용 없이 모니터링하여 오답 위험이 높을 때 '확인이 필요합니다' 문구 노출
RAG 시스템에서 첫 토큰 신뢰도가 낮을 경우에만 외부 지식 검색을 수행하여 API 비용 최적화
데이터셋 라벨링 작업 시 모델의 확신도가 낮은 샘플만 골라내어 검수하는 Active Learning 워크플로우 구축

코드 공개 여부: 비공개

키워드

Hallucination(환각)Self-consistency(자기 일관성)Uncertainty Estimation(불확실성 추정)Entropy(엔트로피)Logits(로짓)