핵심 요약
LLM이 생성하는 답변의 진위 여부를 판단하기 위해 별도의 탐지 모델을 학습시킬 필요가 없음을 보여준다. 모델 내부의 수학적 일관성 위배를 측정하는 것만으로도 다양한 태스크에서 환각을 정확하게 포착할 수 있어 실무적 가치가 크다.
왜 중요한가
LLM이 생성하는 답변의 진위 여부를 판단하기 위해 별도의 탐지 모델을 학습시킬 필요가 없음을 보여준다. 모델 내부의 수학적 일관성 위배를 측정하는 것만으로도 다양한 태스크에서 환각을 정확하게 포착할 수 있어 실무적 가치가 크다.
핵심 기여
EBM 기반 환각 탐지 프레임워크
LLM의 Softmax 계층을 EBM으로 재해석하여 추가 학습이나 파라미터 수정 없이 환각을 탐지하는 프레임워크를 구축함.
Spilled Energy 지표 정의
연속된 디코딩 단계 사이의 에너지 불일치를 측정하는 Spilled Energy 지표를 정의하고 사실적 오류와의 상관관계를 입증함.
강력한 교차 도메인 일반화
특정 데이터셋에 종속되지 않는 특성을 활용하여 기존 학습 기반 탐지기보다 뛰어난 교차 도메인 일반화 성능을 달성함.
핵심 아이디어 이해하기
LLM은 다음 토큰을 예측할 때 각 단어에 점수(Logit)를 매기고 Softmax를 통해 확률로 변환한다. 이 과정은 통계 물리학의 EBM 구조와 수학적으로 동일하며 낮은 에너지는 높은 확률에 대응한다. 이론적인 확률의 연쇄 법칙에 따르면 현재 단계에서 선택한 토큰의 에너지와 다음 단계에서 계산되는 전체 에너지의 기준값은 서로 상쇄되어야 한다. 즉 완벽한 모델이라면 두 값의 차이인 Spilled Energy가 0에 가까워야 한다. 하지만 모델이 학습 데이터에 없는 내용을 지어내거나 확신이 없을 때는 이 수학적 균형이 깨지며 에너지가 외부로 유출되는 현상이 발생한다. 이 유출량을 측정함으로써 모델이 스스로 거짓말을 하고 있는지 실시간으로 파악이 가능하다.
방법론
LLM의 출력을 에너지 기반 모델로 재해석한다. 여기서 특정 토큰의 로짓 에너지를 로, 전체 어휘 사전에 대한 주변화된 에너지를 으로 정의한다. Spilled Energy()는 단계의 주변화된 에너지와 단계의 로짓 에너지의 차이로 계산한다. [입력: 단계의 전체 로짓 벡터와 단계의 선택 토큰 로짓] -> [전체 로짓의 지수 합에 로그를 취한 값과 이전 로짓값을 합산] -> [결과: ] -> [의미: 시퀀스 확률 분해 과정에서 발생하는 에너지 불일치도]. 다중 토큰으로 구성된 답변의 경우 해당 토큰 구간 내에서 측정된 에너지 값들에 대해 Min Pooling을 적용하여 최종 환각 점수를 산출한다. 이는 답변 중 가장 신뢰도가 낮은 부분을 포착하기 위함이다.
주요 결과
Llama-3 8B 모델을 사용한 13자리 정수 덧셈 실험에서 Spilled Energy는 정답과 오답을 명확하게 구분하는 분포를 보였다. 특히 오답의 수치 차이가 작은 케이스에서도 기존 로짓 기반 방식보다 높은 변별력을 나타냈다. TriviaQA, HotpotQA 등 9개 벤치마크에서 평가한 결과 Spilled Energy는 별도의 탐지기를 학습시킨 SOTA 방식 대비 교차 데이터셋 환경에서 AuROC 기준 최대 24%의 성능 향상을 기록했다. Instruction-tuning을 거친 모델일수록 Spilled Energy를 통한 환각 탐지 효율이 더 높아지는 경향이 확인됐다. 이는 미세 조정을 통해 모델 내부의 에너지 지형이 더 명확해지기 때문으로 분석된다.
기술 상세
자기회귀적 언어 모델의 결합 확률을 EBM의 에너지 항들로 분해하여 인접한 시간 단계 간의 에너지 보존 법칙을 유도한다. 이론적으로 주변화된 에너지와 로짓 에너지가 동일한 Partition Function을 공유해야 함을 수학적으로 증명한다. LLM의 실제 구현체에서는 학습 목적 함수가 개별 토큰의 Cross-Entropy에 집중되어 있어 시퀀스 전체의 에너지 일관성이 강제되지 않는다. 이로 인해 발생하는 잔차가 Spilled Energy의 물리적 실체임을 규명한다. Temperature Scaling 파라미터가 Spilled Energy에 미치는 영향을 분석하여 온도가 높아질수록 모델이 균등 분포에 가까워지며 에너지 유출량이 어휘 사전 크기의 로그 값으로 수렴하는 한계 거동을 제시한다.
한계점
문장 시작 부분의 단어나 구두점처럼 의미적 정보량이 적은 토큰에서 에너지가 과도하게 유출되어 오탐지(False Positive)가 발생할 수 있다.
실무 활용
추가적인 모델 학습이나 추론 비용의 큰 증가 없이 LLM의 답변 신뢰도를 실시간으로 모니터링할 수 있다. 로짓값에 접근 가능한 화이트박스 환경에서 즉시 활용 가능하다.
- RAG 시스템에서 생성된 답변의 사실 관계 자가 검증
- 수학 및 논리 추론 서비스의 오답 필터링
- 에이전트 워크플로우에서 다음 단계 진행 전 확신도 평가
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.