핵심 요약
멀티모달 추론 모델이 '하지만'이나 '왜냐하면' 같은 전환어 이후에 논리적 오류나 환각을 일으키는 고질적인 문제를 해결한다. 모델의 내부 불확실성을 실시간으로 감지해 사고 방식을 유연하게 전환함으로써, 추가 학습 없이도 시각적 추론의 정확도와 효율성을 동시에 높였다.
왜 중요한가
멀티모달 추론 모델이 '하지만'이나 '왜냐하면' 같은 전환어 이후에 논리적 오류나 환각을 일으키는 고질적인 문제를 해결한다. 모델의 내부 불확실성을 실시간으로 감지해 사고 방식을 유연하게 전환함으로써, 추가 학습 없이도 시각적 추론의 정확도와 효율성을 동시에 높였다.
핵심 기여
전환어와 환각 사이의 상관관계 규명
멀티모달 추론 모델이 생성하는 'because', 'however' 등의 전환어가 높은 토큰 엔트로피(불확실성)와 밀접하게 연관되어 있으며, 이 시점에서 환각이 집중적으로 발생함을 데이터로 입증했다.
잠재 엔트로피 인식 디코딩(LEAD) 제안
모델의 엔트로피 상태에 따라 이산적 토큰 샘플링과 확률 가중치 기반의 연속적 임베딩 표현을 동적으로 전환하는 플러그앤플레이 디코딩 전략을 개발했다.
시각적 앵커 주입 메커니즘 도입
고엔트로피 단계 진입 시 사전 학습된 시각적 특징을 입력 임베딩에 주입하여, 모델이 텍스트 편향에 빠지지 않고 시각 정보에 다시 집중하도록 유도했다.
핵심 아이디어 이해하기
Transformer 기반 모델은 다음 단어를 예측할 때 확률 분포를 생성하고 그중 하나를 선택하여 다음 입력으로 사용한다. 하지만 '하지만(however)'이나 '잠깐(wait)'처럼 여러 논리적 전개가 가능한 전환어 단계에서는 확률 분포가 여러 후보로 분산되는 고엔트로피 상태가 된다. 이때 하나의 단어만 강제로 선택하면 풍부한 문맥 정보가 손실되고, 모델이 잘못된 논리 경로로 빠져 환각을 일으키기 쉽다.
LEAD는 이 문제를 해결하기 위해 모델이 불확실할 때는 단일 토큰을 고르는 대신, 전체 확률 분포를 반영한 가중 평균 임베딩을 다음 입력으로 사용한다. 이는 여러 가능성을 잠재 공간에 중첩된 상태로 유지하며 사고를 이어가게 함으로써, 성급한 결론으로 인한 오류를 방지한다. 확신이 생겨 엔트로피가 낮아지면 다시 일반적인 토큰 선택 방식으로 돌아와 논리를 확정한다.
결과적으로 모델은 불확실한 구간에서는 신중하게 여러 가능성을 검토하고, 확실한 구간에서는 빠르게 결론을 내리는 적응형 사고 체계를 갖추게 된다. 이는 인간이 어려운 문제를 풀 때 잠시 멈춰 여러 가능성을 고민하다가 확신이 서면 빠르게 답을 적는 과정과 유사하다.
방법론
전체 아키텍처는 MLRM의 추론 단계에서 엔트로피 를 실시간 모니터링하여 디코딩 모드를 전환하는 구조이다. 토큰별 확률 분포 가 주어질 때 를 계산하여 모델의 불확실성을 수치화한다. [각 토큰의 예측 확률값들을 입력으로] → [로그 확률과의 곱을 합산하는 엔트로피 연산을 수행해] → [하나의 스칼라 값을 얻고] → [이 값이 높을수록 모델이 다음 단어를 결정하지 못하고 방황하고 있음을 의미한다].
고엔트로피 상태()에서는 잠재 디코딩(Latent Decoding)을 수행한다. 단일 토큰의 임베딩 대신 확률 가중 평균 임베딩 를 생성한다. [전체 어휘 사전의 임베딩 행렬과 예측 확률 분포를 입력으로] → [행렬 곱셈 연산을 수행해] → [연속적인 벡터를 얻고] → [이 벡터는 모든 후보 단어의 의미가 확률적으로 혼합된 풍부한 문맥 정보를 담아 다음 단계로 전달한다].
시각적 접지를 강화하기 위해 고엔트로피 단계의 첫 토큰에서 시각적 앵커 를 주입한다. 식을 사용한다. [잠재 임베딩과 사전 학습된 시각 특징 벡터를 입력으로] → [가중치 를 적용한 선형 결합 연산을 수행해] → [수정된 임베딩을 얻고] → [모델이 텍스트 논리에만 매몰되지 않고 실제 이미지 정보를 다시 참조하도록 강제한다].
주요 결과
R1-Onevision-7B 모델에 LEAD를 적용했을 때, 일반 추론 벤치마크인 MMEval-Pro에서 +4.5%, 환각 평가 지표인 MMHalu에서 +4.7%의 성능 향상을 기록했다. 특히 수학적 추론(MathVision)과 과학적 추론(MMK12) 등 복잡한 논리가 필요한 영역에서도 각각 +2.5%, +3.2% 이상의 정확도 개선을 보였다.
Ablation study 결과, 고정된 엔트로피 임계값보다 동적으로 변화하는 임계값을 사용할 때 가장 우수한 성능을 보였다. 또한 시각적 앵커 주입 강도 가 0.4일 때 시각 정보와 언어 문맥 사이의 최적의 균형을 찾아 환각 억제 효과가 극대화됨을 확인했다.
추론 효율성 측면에서 LEAD는 기존 방식보다 더 짧은 추론 체인(Reasoning Length)으로도 더 높은 정확도에 도달했다. 이는 모델이 불필요한 반복이나 방황 없이 효율적으로 정답에 수렴함을 시사하며, 토큰 생성 비용 절감 가능성을 보여준다.
실무 활용
별도의 추가 학습 없이 기존 멀티모달 추론 모델에 즉시 적용 가능한 디코딩 전략으로, 환각이 치명적인 의료, 법률, 과학 분석 분야의 AI 서비스에 유용하다.
- 복잡한 도표나 수식이 포함된 과학 논문의 시각적 질의응답(VQA) 시스템
- 이미지 내 미세한 세부 정보를 근거로 논리적 판단을 내려야 하는 보안 관제 및 의료 진단 AI
- 긴 추론 과정이 필요한 멀티모달 에이전트의 의사결정 신뢰도 및 효율성 향상
기술 상세
MLRM의 추론 과정에서 발생하는 '전환어(Transition Words)'가 높은 엔트로피를 유발하고 이것이 환각의 전조 증상이라는 관찰에서 출발한다. 기존의 이산적 디코딩은 확률 분포를 원-핫 벡터로 붕괴시켜 불확실성 정보를 손실하지만, LEAD는 이를 연속적인 잠재 공간에서의 중첩 표현으로 유지하여 정보 손실을 최소화한다.
모드 전환의 안정성을 위해 Persistence Window 메커니즘을 도입했다. 이산 모드에서 잠재 모드로 전환할 때는 최소 유지 단계()를 두어 잦은 진동을 방지하고 논리적 일관성을 확보한다. 또한 전체 전환 횟수를 제한하는 Switch Count Regulation()을 통해 무한 루프나 과도한 연산을 방지하도록 설계되었다.
시각적 앵커 주입은 매 단계가 아닌 고엔트로피 단계의 시작점에서만 1회 수행된다. 이는 모델의 사고 방향을 시각 정보 쪽으로 재설정하는 역할을 하며, 이후의 적응형 디코딩 과정에 시각적 가이드라인을 제공하면서도 언어적 추론의 유연성을 해치지 않는 균형을 유지한다.
실험 결과 LEAD는 R1-Onevision뿐만 아니라 Vision-R1, VL-Rethinker 등 다양한 구조의 MLRM에서 일관된 성능 향상을 보여주어, 특정 아키텍처에 종속되지 않는 범용적인 디코딩 솔루션임을 입증했다.
한계점
모델이 불확실성 기반으로 모드를 전환하므로 엔트로피 임계값 설정에 따라 성능 민감도가 존재할 수 있으며, 매우 긴 추론 체인에서는 전환 횟수 제한이 추론의 깊이를 의도치 않게 제한할 가능성이 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료