핵심 요약
기존 MLLM은 단순한 질문에는 잘 답하지만, 이미지에 없는 세밀한 속성이나 관계를 묻는 부정 쿼리에는 취약하여 환각을 일으킨다. 이 논문은 이러한 취약점을 체계적으로 평가하는 벤치마크와 이를 해결하기 위한 DPO 기반의 학습법을 제시하여 AI의 시각적 이해도와 신뢰성을 동시에 높인다.
왜 중요한가
기존 MLLM은 단순한 질문에는 잘 답하지만, 이미지에 없는 세밀한 속성이나 관계를 묻는 부정 쿼리에는 취약하여 환각을 일으킨다. 이 논문은 이러한 취약점을 체계적으로 평가하는 벤치마크와 이를 해결하기 위한 DPO 기반의 학습법을 제시하여 AI의 시각적 이해도와 신뢰성을 동시에 높인다.
핵심 기여
FINER 벤치마크 구축
객체, 속성, 관계 수준에서 세밀하게 설계된 부정 질문 데이터셋인 FINER-CompreCap과 FINER-DOCCI를 도입하여 모델의 환각 현상을 정밀하게 측정한다.
세밀한 부정 쿼리에 대한 취약성 분석
MLLM이 이미지 내 실제 요소와 세밀한 오류가 섞여 있을 때 이를 구분하지 못하고 잘못된 긍정 답변을 내놓는 경향이 있음을 정량적으로 입증했다.
FINER-Tuning 방법론 제안
DPO(Direct Preference Optimization)를 활용하여 세밀한 부정 질문에 대해 올바르게 거부 답변을 하도록 모델을 정렬하는 데이터 기반 학습 전략을 제시했다.
범용 성능 유지 및 환각 개선
InternVL3.5-14B 등 최신 모델에서 환각을 최대 24.2% 줄이면서도 일반적인 멀티모달 능력과 기존 환각 벤치마크 성능을 동시에 향상시켰다.
핵심 아이디어 이해하기
멀티모달 대형 언어 모델(MLLM)은 이미지와 텍스트를 연결하는 Embedding 공간에서 학습되지만, 존재하지 않는 사물에 대한 질문(Negative Query)을 받았을 때 이를 무비판적으로 수용하는 경향이 있다. 이는 학습 데이터가 주로 긍정적인 묘사 위주로 구성되어 있어, 모델이 시각적 증거가 없을 때 아니오라고 답해야 하는 상황에 익숙하지 않기 때문이다.
본 논문은 단순히 개가 있냐고 묻는 대신, 빨간 목줄을 한 갈색 개처럼 실제 이미지와 유사하지만 한 가지 세밀한 정보만 틀린 질문을 던져 모델의 한계를 시험한다. 이는 Softmax 확률 분포에서 오답 후보가 정답만큼 높은 점수를 얻게 되는 현상을 유도하여 모델의 취약점을 드러낸다.
이를 해결하기 위해 DPO를 사용하여 모델이 세밀한 오류가 포함된 질문에 대해 명확히 거부 답변을 하도록 유도한다. 이는 Gradient Descent 과정에서 환각 답변의 로그 확률을 낮추고 올바른 거부 답변의 확률을 높여, 모델이 시각적 증거에 더 엄격하게 기반하도록 만든다. 결과적으로 모델은 복잡한 질문 속에서도 사실과 거짓을 더 정교하게 구분하게 된다.
방법론
Scene Graph(SG) 기반의 질문 생성 파이프라인을 구축한다. 이미지 캡션에서 객체(OBJ), 속성(ATTR), 관계(REL)를 추출하여 긍정 SG를 만들고, LLM을 이용해 이 중 하나만 교체한 부정 SG를 생성한다. 이후 규칙 기반 템플릿을 사용하여 다지선다형(MCQ) 질문으로 변환한다.
생성된 부정 질문의 품질을 보장하기 위해 MLLM 기반의 Discriminator와 Entropy 필터링을 적용한다. 모델 출력 확률 분포 에 대해 를 계산한다. [각 선택지의 확률값들을 입력으로] -> [로그를 취해 가중치를 곱한 뒤 합산하는 연산을 수행해] -> [하나의 스칼라값인 엔트로피를 얻고] -> [이 값이 낮을수록 모델이 특정 답변에 대해 매우 높은 확신을 가지고 있음을 의미한다.] 만약 모델이 부정 질문에 대해 낮은 엔트로피로 오답을 선택하면 해당 질문을 수정하거나 폐기한다.
FINER-Tuning은 DPO 손실 함수를 사용하여 학습한다. 를 계산한다. [정답 답변과 오답 답변의 확률 로그값을 입력으로] -> [두 값의 차이를 구하는 연산을 수행해] -> [상대적인 선호도 차이를 얻고] -> [이 차이가 커지도록 모델의 가중치를 업데이트하여 정답 확률은 높이고 오답 확률은 낮춘다.] 이를 통해 모델이 긍정 질문에는 Yes와 정확한 설명을, 부정 질문에는 No와 오류 수정을 선택하도록 정렬한다.
주요 결과
InternVL3.5-14B 모델에 FINER-Tuning을 적용한 결과, FINER-CompreCap 벤치마크의 Multi-rel 설정에서 환각 정확도가 24.2% 향상되었다. 이는 기존의 RLAIF-V나 OPA-DPO 등 다른 환각 방지 튜닝 기법들보다 월등히 높은 수치이며, 모델의 파라미터 규모가 커질수록 개선 효과가 더 뚜렷하게 나타났다.
제안된 방법론은 일반적인 멀티모달 벤치마크(MMStar, TextVQA 등)에서도 성능 저하 없이 평균 1.4%의 성능 향상을 보였다. 이는 특정 벤치마크에만 과적합되는 것이 아니라 모델의 전반적인 시각적 이해 능력이 강화되었음을 의미하며, 기존 연구들에서 흔히 발생하는 일반 능력 저하 현상을 극복했음을 시사한다.
Ablation Study를 통해 긍정 질문과 부정 질문을 모두 사용하여 학습하는 것이 부정 질문만 사용하는 것보다 더 균형 잡힌 성능을 낸다는 점을 확인했다. 또한 훈련 데이터에서 차트나 스크린샷 이미지를 제외하고 자연 이미지만 사용하는 필터링 과정이 성능 향상에 기여함을 입증했다.
실무 활용
의료 영상 분석이나 자율 주행과 같이 미세한 시각적 오류가 치명적인 분야에서 MLLM의 신뢰성을 확보하는 데 즉시 활용 가능하다. 모델이 모르는 것을 모른다고 하거나 틀린 질문을 지적하는 능력을 강화한다.
- 의료 영상 진단 보조 시스템에서 존재하지 않는 병변에 대한 질문 시 오진 방지
- 보안 관제 시스템에서 잘못된 객체 속성 식별에 대한 거부 능력 강화
- 전자상거래 플랫폼의 상품 이미지와 텍스트 설명 간의 미세한 불일치 자동 검수
기술 상세
본 연구는 MLLM의 환각을 평가하기 위해 Paired Accuracy 지표를 도입했다. 이는 동일한 이미지에 대해 긍정 질문과 부정 질문을 모두 맞혀야 정답으로 인정하는 엄격한 기준이다. 데이터 생성 시 Phi-4-14B를 사용하여 고품질의 세밀한 부정 문구를 추출하고, Gemini 2.0 Flash를 통해 DOCCI 데이터셋에서 Scene Graph를 정교하게 추출하는 하이브리드 파이프라인을 사용했다. DPO 학습 시 LoRA(Low-Rank Adaptation)를 적용하여 효율성을 높였으며, rank=32, beta=0.1 설정을 사용했다. 학습 데이터는 Pixmo-caption을 기반으로 약 160k개의 선호도 쌍(preference tuples)을 구축하여 학습을 진행했다.
한계점
대규모 벤치마크가 완전히 수동으로 검수되지 않아 일부 노이즈가 존재할 수 있으며, 규칙 기반의 MCQ 생성 방식이 질문의 자연스러움을 다소 저해할 수 있다. 또한 Multi-rel 데이터셋의 관계 수가 최대 3개로 제한되어 있어 더 복잡한 장면으로의 확장이 필요하다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료