핵심 요약
대형 시각-언어 모델(LVLM)이 이미지와 무관한 답변을 생성하는 환각 현상은 신뢰성을 저해하는 고질적인 문제입니다. 이 논문은 추가적인 데이터 학습이나 외부 감독 없이 추론 단계에서 환각을 실시간으로 감지하고 수정하는 PSRD 프레임워크를 제안하여 모델의 정확도를 획기적으로 높였습니다.
왜 중요한가
대형 시각-언어 모델(LVLM)이 이미지와 무관한 답변을 생성하는 환각 현상은 신뢰성을 저해하는 고질적인 문제입니다. 이 논문은 추가적인 데이터 학습이나 외부 감독 없이 추론 단계에서 환각을 실시간으로 감지하고 수정하는 PSRD 프레임워크를 제안하여 모델의 정확도를 획기적으로 높였습니다.
핵심 기여
시각적 환각의 단계별 동적 패턴 발견
멀티모달 환각이 생성 과정 전반에 걸쳐 일정하게 발생하는 것이 아니라, 새로운 의미 단계가 시작되는 시점에 집중적으로 발생한다는 사실을 정량적으로 입증했다.
PSRD(Phase-wise Self-Reward Decoding) 프레임워크 제안
모델 내부의 불확실성 신호를 활용해 경량화된 보상 모델을 구축하고, 이를 통해 추론 시점에 실시간으로 환각을 억제하는 자기 보상 메커니즘을 개발했다.
Scout-and-Project 전략을 통한 효율적 개입
모든 토큰 생성 단계에서 개입하는 대신, 환각 취약 지점을 탐색(Scout)하고 국소적으로 투영(Project)하여 추론 효율성과 성능 사이의 최적의 균형을 달성했다.
핵심 아이디어 이해하기
기존의 LVLM은 텍스트를 생성할 때 이전 토큰들과의 문맥적 일관성(Linguistic Context)에 치중하다가 실제 입력된 이미지 정보(Visual Grounding)를 놓치는 경우가 많다. 특히 새로운 문장이 시작되거나 새로운 객체를 묘사하기 시작하는 '의미적 전환점'에서 이러한 정렬 오류가 발생하기 쉽다. 일단 첫 단추를 잘못 끼우면 이후 생성되는 모든 토큰으로 환각이 전파되는 특성을 보인다.
이 논문은 모델이 스스로 자신의 답변이 이미지와 일치하는지 판단할 수 있는 '내재적 판별 능력'을 가지고 있다는 점에 착안했다. Softmax 확률 분포에서 나타나는 불확실성(Uncertainty) 신호를 분석하면 모델이 언제 확신 없이 답변을 지어내는지 알 수 있다. PSRD는 이 신호를 추출하여 별도의 가벼운 Reward Model에 학습시킨다.
결과적으로 전체 모델을 다시 학습시키지 않고도, 생성 과정 중에 Reward Model이 실시간으로 감시자 역할을 수행한다. 환각 위험이 높은 지점에서만 선택적으로 개입하여 이미지 정보에 더 집중하도록 유도함으로써, 답변의 유창함은 유지하면서도 사실 관계의 정확도를 비약적으로 향상시킨다.
관련 Figure

각 의미적 단계(Phase)가 시작되는 시점에 환각 발생률이 급격히 치솟는 패턴을 시각화하여, 왜 단계별 개입이 필요한지에 대한 근거를 제시한다.
생성 단계별 환각 발생률 변화 그래프
방법론
PSRD는 크게 세 단계로 구성된다. 첫째, LVLM의 자기 평가 능력을 활용해 환각 데이터를 수집한다. 원본 이미지와 노이즈가 섞인 이미지, 그리고 환각 유도 프롬프트를 조합하여 모델이 스스로 정답과 오답을 생성하게 하고, 이에 대한 내부 확신도를 추출한다.
둘째, 추출된 불확실성 신호를 가중치로 사용하여 경량화된 Reward Model을 학습시킨다. CLIP 백본을 기반으로 하며, Discriminative Alignment Loss를 사용하여 실제 이미지와 텍스트 사이의 정렬 점수를 최대화한다. 이때 [이미지 임베딩과 텍스트 임베딩의 코사인 유사도 계산 → 불확실성 가중치 적용 → Cross-Entropy Loss 최적화] 과정을 거쳐 환각에 민감한 보상 신호를 생성하도록 만든다.
셋째, 추론 시 Scout-and-Project 전략을 적용한다. 생성 중인 문구의 초기 토큰들을 탐색(Scout)하여 보상 점수가 낮은 경우에만 개입 강도를 조절(Project)한다. [현재 보상 점수와 목표 임계값 차이 계산 → Secant Method 기반의 국소적 기울기 추정 → 다음 개입 강도 결정] 순으로 연산하여 최소한의 추가 연산으로 환각을 억제한다.
관련 Figure

LVLM의 응답에서 불확실성 신호를 추출해 보상 모델을 학습시키고, 이를 통해 생성 과정 중 실시간으로 개입하여 환각을 억제하는 전체 워크플로우를 보여준다.
PSRD 프레임워크의 전체 구조도
주요 결과
AMBER 벤치마크에서 LLaVA-1.5-7B 모델의 환각률(CHAIR)을 기존 7.8%에서 3.9%로 50.0% 감소시켰다. 이는 외부 데이터를 사용해 파인튜닝한 모델들보다 우수한 성능이며, 기존의 사후 수정(Post-hoc) 방식들 중 가장 뛰어난 수치이다.
또한 환각 전파율(Hallucination Accumulation Rate) 분석 결과, 기본 모델(0.35%) 대비 약 5배 낮은 0.07%를 기록하여 문장 생성 후반부로 갈수록 환각이 심해지는 현상을 효과적으로 차단했음을 입증했다. Object HalBench 등 총 5개의 벤치마크에서 일관되게 SOTA 성능을 달성했다.
관련 Figure

보상 임계값(tau)을 조절함에 따라 환각 억제 성능(CHAIR)과 추론 시간 사이의 상관관계를 보여주며, PSRD가 유연한 제어가 가능함을 입증한다.
임계값 변화에 따른 성능과 추론 시간의 트레이드오프
기술 상세
PSRD는 LVLM의 Unembedding Matrix 가중치와 마지막 토큰의 Hidden Representation을 사용하여 Grounded/Hallucinated 라벨에 대한 Softmax 확률을 계산하고 이를 약한 감독(Weak Supervision) 신호로 활용한다. Reward Model 학습 시에는 Margin Enforcement Loss를 도입하여 긍정 샘플과 부정 샘플 사이의 최소 마진을 확보하고, Hallucination Consistency Loss를 통해 동일 이미지 내의 다양한 환각 문장들이 특징 공간에서 가깝게 위치하도록 정규화한다. 추론 시에는 VCD(Visual Contrastive Decoding)를 개입 프리미티브로 사용하여 모델 아키텍처에 구애받지 않는 범용성을 확보했다.
한계점
본 논문은 주로 객체 수준의 환각 완화에 집중하고 있으며, 복잡한 논리적 추론이나 관계적 환각에 대한 해결책은 명시적으로 다루지 않았다. 또한 Reward Model 학습을 위해 초기 데이터 수집 과정이 필요하다는 점이 한계로 언급될 수 있다.
실무 활용
추가적인 학습 데이터나 모델 파인튜닝 없이도 기존 LVLM의 신뢰성을 즉각적으로 높일 수 있는 실용적인 추론 기법이다.
- 의료 영상 분석이나 보안 감시 등 사실 관계의 정확성이 치명적인 도메인의 AI 서비스
- 전자상거래 플랫폼에서 이미지 기반의 자동 상품 설명 생성 시스템
- 시각 장애인을 위한 정밀한 주변 환경 묘사 보조 도구
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.