거짓말의 해부: 시각-언어 모델의 환각 추적을 위한 다단계 진단 프레임워크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

시각-언어 모델(VLM)의 환각을 단순한 결과 오류가 아닌 모델 내부 인지 과정의 '질병'으로 접근하여, 지각 단계와 추론 단계 중 어디서 문제가 생겼는지 정밀 진단할 수 있는 길을 열었다. 별도의 미세 라벨링 없이 정답 여부만으로 학습 가능한 고효율 탐지 방식을 제안하여 실전 배치 가능성을 크게 높였다.

왜 중요한가

핵심 기여

인지 궤적 기반의 다단계 진단 프레임워크 제안

VLM의 생성을 정적인 오류가 아닌 동적인 '인지 궤적'으로 모델링하고, 이를 3차원 인지 상태 공간에 투영하여 분석하는 CAD 프레임워크를 개발했다.

정보 이론 기반의 3대 진단 지표 설계

지각 불안정성(Perceptual Entropy), 추론 갈등(Inferential Conflict), 결정 모호성(Decision Entropy) 지표를 통해 환각의 발생 지점을 단계별로 정밀하게 포착한다.

기하학적-정보 이중성 원리 발견

인지 상태 공간에서의 기하학적 이상치가 정보 이론적 의외성(Surprisal)과 수학적으로 동일함을 입증하여, 환각 탐지를 기하학적 이상 탐지 문제로 전환했다.

약한 지도 학습 및 고효율 탐지 구현

토큰 단위 라벨 없이 정답 여부만으로 캘리브레이션이 가능하며, 단 한 번의 생성 패스와 효율적인 비자기회귀 리플레이만으로 작동하여 연산 비용을 최적화했다.

핵심 아이디어 이해하기

기존의 환각 탐지는 모델이 내놓은 최종 답변이 이미지와 일치하는지만 확인하는 블랙박스 방식이었다. 하지만 VLM은 이미지를 잘못 보고도 우연히 정답을 맞히거나, 이미지는 잘 보고도 논리적 비약으로 틀린 답을 내놓는 등 복잡한 실패 양상을 보인다. 본 논문은 이를 해결하기 위해 모델의 추론 과정을 '이미지 → 텍스트 증거 → 최종 답변'으로 이어지는 정보의 흐름으로 정의한다.

핵심 아이디어는 '계산적 합리성'이다. 이상적인 모델이라면 최종 답변은 오직 텍스트 증거에만 의존해야 하며, 이미지에서 답변으로 직접 이어지는 '지름길'이 있어서는 안 된다. 이 원칙이 깨지는 순간을 수학적으로 포착하여 3차원 공간상의 좌표로 변환하면, 정상적인 추론은 특정 영역에 밀집되는 반면 환각은 이 궤적에서 크게 벗어난 이상치로 나타나게 된다.

결과적으로 환각은 단순한 오답이 아니라, 모델이 학습한 세계 모델에서 벗어난 '인지적 이상 현상'으로 간주된다. 이를 통해 모델이 확신을 가지고 거짓말을 하는지, 아니면 입력 데이터의 모호함 때문에 혼란을 겪고 있는지를 기하학적으로 구분할 수 있게 된다.

방법론

CAD 프레임워크는 VLM의 생성 과정을 3차원 인지 상태 벡터 $v = [H_{Evi}, S_{Conf}, H_{Ans}]$ 로 요약한다. 첫 번째 지표인 지각 불안정성( $H_{Evi}$ )은 증거 생성 단계의 각 토큰 확률 분포를 입력으로 받아 불확실성 단어 집합에 대한 비중을 계산하고 이를 전체 경로에 대해 평균 낸다. 이 값은 모델이 시각적 특징을 텍스트로 변환할 때 얼마나 흔들리는지를 나타낸다.

두 번째 지표인 추론 갈등( $S_{Conf}$ )은 조건부 점별 상호 정보량(CPMI)을 측정한다. 이미지 $I$ 와 증거 $T_{evi}$ 가 모두 있을 때의 답변 확률과 이미지를 제거한 상태에서의 확률을 입력으로 받아 로그 확률의 차이를 계산한다. 이 연산은 시각 정보가 답변 결정에 미친 직접적인 영향력을 추출하며, 결과값이 양수로 크면 증거를 거치지 않은 부적절한 정보 흐름이 발생했음을 의미한다.

세 번째 지표인 결정 모호성( $H_{Ans}$ )은 최종 답변 후보들에 대한 모델의 예측 확률 분포를 입력으로 받아 Shannon Entropy를 계산한다. 이 연산은 확률 분포의 균일도를 측정하며, 결과값이 높을수록 모델이 어느 한쪽으로 결론을 내리지 못하고 모호한 상태에 있음을 의미한다.

최종 진단은 가우시안 혼합 모델(GMM)을 활용한다. 정답을 맞힌 샘플들의 3차원 벡터들을 입력으로 하여 GMM의 확률 밀도 함수를 학습시킨 후, 새로운 입력 벡터에 대해 음의 로그 가능도(Negative Log-Likelihood)를 계산하여 환각 점수를 산출한다.

주요 결과

POPE(Adversarial) 벤치마크에서 Llava-v1.6(0.910), Idefics2(0.947) 등 주요 모델에서 기존 기법들을 압도하는 AUC 성능을 기록했다. 특히 거짓 긍정률(FPR)이 $10^{-2}$ 이하인 매우 낮은 영역에서도 높은 재현율을 유지하여 실전 배치를 위한 신뢰성을 확보했다.

MME 벤치마크의 다양한 멀티모달 추론 과제에서도 평균 0.796의 AUC를 달성하며 범용성을 입증했다. 이는 특정 도메인에 국한되지 않고 공간 추론, OCR, 상식 논리 등 광범위한 환경에서 환각을 효과적으로 탐지할 수 있음을 보여준다.

데이터 오염에 대한 강건성 실험에서는 캘리브레이션 데이터에 최대 30%의 환각 샘플이 섞여 있어도 성능 저하가 2% 미만으로 나타났다. 또한 MS-COCO 오픈 엔드 캡셔닝 과제에서도 별도의 튜닝 없이 환각 캡션을 유의미하게 구분해내는 데 성공했다( $p < 0.001$ ).

기술 상세

본 연구는 VLM의 인지 과정을 $I \to T_{evi} \to A$ 라는 확률적 그래픽 모델(PGM)로 정형화하고, $T_{evi}$ 가 $A$ 에 대한 충분 통계량이 되어야 한다는 정보 이론적 공리를 기반으로 한다. 이를 통해 $I(A; I | T_{evi}) = 0$ 이라는 조건부 독립성 위반 여부를 추론 갈등( $S_{Conf}$ ) 지표로 수치화했다.

아키텍처별 '인지 지문(Cognitive Fingerprints)' 분석을 통해 세 가지 실패 패턴을 정의했다. Idefics2는 정상 상태가 매우 조밀하게 모여 있는 '구조적 무질서(Structural Disorder)' 패턴을, Llava-v1.6은 환각 상태가 명확히 분리되는 '투명한 고전(Transparent Struggle)' 패턴을 보였다. 반면 Qwen2-VL과 DeepSeek-VL2는 정상과 환각 상태가 복잡하게 얽힌 '얽힌 상태(Entangled States)'를 보여 환각이 단순한 이상치가 아닌 내용적 오류일 수 있음을 시사했다.

구현 측면에서는 비자기회귀(Non-autoregressive) 리플레이 방식을 도입하여 연산 효율을 극대화했다. 텍스트 증거를 교사 강요(Teacher-forcing) 방식으로 입력하되 시각 정보를 제거한 상태에서 답변 토큰의 확률을 계산함으로써, 모델의 내부 연산 그래프를 직접 수정하지 않고도 인과적 개입(Causal Intervention) 효과를 얻었다.

한계점

Qwen2-VL 및 DeepSeek-VL2와 같이 환각 상태와 정상 상태가 기하학적으로 얽혀 있는 'Entangled States' 패턴을 보이는 모델의 경우, 단순한 밀도 기반 이상 탐지만으로는 완벽한 구분이 어렵다는 한계가 명시되었다.

실무 활용

VLM 기반 서비스에서 실시간으로 답변의 신뢰도를 모니터링하고 오류의 근본 원인을 진단하는 도구로 활용할 수 있다. 추가 학습 없이 기존 모델의 추론 과정에 가볍게 적용 가능하여 즉각적인 도입이 용이하다.

의료 및 법률 등 고위험 도메인 VLM 서비스의 실시간 환각 모니터링 및 차단
VLM 모델 개발 시 아키텍처별 취약 단계(지각 vs 추론) 분석 및 개선 가이드 제공
데이터 라벨링 자동화 시스템에서 생성된 캡션의 사실성 검증 필터링
설명 가능한 AI(XAI) 인터페이스를 통해 사용자에게 답변의 근거와 불확실성 수준 시각화

코드 공개 여부: 공개

코드 저장소 보기

키워드

VLM(시각-언어 모델)Hallucination(환각)Cognitive Trajectory(인지 궤적)Anomaly Detection(이상 탐지)Information Theory(정보 이론)Explainable AI(설명 가능한 AI)