핵심 요약
본 연구는 대형 언어 모델(LLM)의 최종 소프트맥스(softmax) 분류기를 에너지 기반 모델(EBM)로 재해석하고, 추론 시 시퀀스 투 시퀀스(sequence-to-sequence) 확률 체인을 상호 작용하는 여러 EBM으로 분해합니다. 이러한 원칙적인 접근 방식을 통해 디코딩 과정에서 발생하는 '에너지 유출(energy spills)'을 추적할 수 있으며, 실험을 통해 이것이 사실 관계 오류, 편향 및 실패와 상관관계가 있음을 보여줍니다. Orgad 등(2025)의 연구와 유사하게, 본 방법론은 정확한 답변 토큰을 국소화하고 이후 환각 여부를 테스트합니다. 결정적으로, 본 연구는 훈련된 프로브 분류기(probe classifiers)나 활성화 절제(activation ablations) 없이도 이를 달성합니다. 대신 출력 로짓(logits)에서 직접 유도된 두 가지 완전한 무학습(training-free) 지표를 도입합니다. 첫째는 이론적으로 일치해야 하는 연속된 생성 단계 간의 에너지 값 차이를 포착하는 '유출된 에너지(spilled energy)'이며, 둘째는 단일 단계에서 측정 가능한 '마진화된 에너지(marginalized energy)'입니다. LLaMA, Mistral, Gemma를 포함한 최첨단 LLM과 합성 대수 연산(Qwen3)을 이용한 9개의 벤치마크 평가 결과, 본 접근 방식은 강력하고 경쟁력 있는 환각 탐지 성능과 작업 간 일반화 능력을 입증했습니다. 특히, 이러한 결과는 추가적인 훈련 오버헤드 없이 사전 학습된 모델과 지시어 튜닝(instruction-tuned) 모델 변체 모두에서 유효합니다.
핵심 기여
LLM 소프트맥스 분류기의 에너지 기반 모델(EBM) 재해석
LLM의 확률 체인을 상호 작용하는 EBM으로 분해하여 물리적 에너지 개념을 언어 생성 과정에 도입함으로써 이론적 분석 틀을 마련했다.
무학습 기반의 환각 탐지 지표 제안
별도의 프로브 모델 학습이나 내부 활성화 값 추출 없이 출력 로짓(logits)만을 활용해 계산 가능한 유출된 에너지와 마진화된 에너지 지표를 개발했다.
연속적 생성 단계 간의 에너지 불일치 추적
이론적으로 일치해야 하는 시퀀스 단계 간의 에너지 차이(Spilled Energy)가 모델의 사실적 오류나 편향과 높은 상관관계가 있음을 입증했다.
방법론
LLM의 소프트맥스 층을 에너지 함수로 정의하고 전체 시퀀스 확률을 개별 토큰 단계의 에너지 합으로 분해하는 에너지 기반 모델(EBM) 프레임워크를 적용한다. 연속된 생성 단계 t와 t+1 사이에서 보존되어야 할 에너지 평형 상태의 이탈 정도를 유출된 에너지(Spilled Energy)로 정의하여 로짓 값의 변화를 통해 환각 발생 가능성을 수치화한다.
주요 결과
LLaMA, Mistral, Gemma 등 주요 모델을 대상으로 한 9개 벤치마크에서 기존의 학습 기반 프로브 방식과 대등하거나 우수한 환각 탐지 성능을 기록했다. 특히 Qwen3를 이용한 합성 대수 연산 실험에서도 높은 신뢰도를 보였으며 사전 학습 모델과 지시어 튜닝 모델 모두에서 추가 연산 비용 없이 일관된 탐지 능력을 입증했다.
시사점
별도의 검증 모델을 구축하거나 복잡한 내부 레이어 분석 없이도 실시간 추론 과정에서 생성된 로짓만으로 답변의 신뢰도를 즉각 평가할 수 있다. 이는 저비용 고효율의 환각 방어 시스템 구축에 기여하며 다양한 도메인과 모델 아키텍처에 즉시 적용 가능한 범용적인 신뢰성 지표로 활용될 가능성이 높다.
키워드
섹션별 상세
LLM 소프트맥스 분류기의 에너지 기반 모델(EBM) 재해석
무학습 기반의 환각 탐지 지표 제안
연속적 생성 단계 간의 에너지 불일치 추적
AI 요약 · 북마크 · 개인 피드 설정 — 무료