텍스트 지배력을 넘어서: 옴니모달 대형 언어 모델의 모달리티 선호도 이해

기존 멀티모달 모델이 텍스트에 의존하던 것과 달리, 최신 옴니모달 모델(OLLM)은 시각 정보를 압도적으로 선호한다는 사실을 발견했습니다. 이러한 내부 선호도가 모델의 환각 현상을 유발하는 핵심 원인임을 밝혀내고, 이를 사전에 진단할 수 있는 새로운 도구를 제시하여 더 안전한 AI 구축의 토대를 마련했습니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

모달리티 선호도 정량화 프레임워크 구축

텍스트, 이미지, 오디오 정보가 서로 충돌하는 Tri-modal Conflict 데이터셋을 구축하고, 모델이 어떤 정보를 선택하는지 측정하는 MSR(Modality Selection Rate) 지표를 도입했다.

OLLM의 시각 정보 선호 경향 발견

Gemini 3.1 Pro를 포함한 10종의 주요 OLLM을 평가한 결과, 기존 VLM의 텍스트 지배력과 달리 대부분의 모델이 시각 정보를 우선시하며 오디오 정보는 체계적으로 무시하는 경향을 확인했다.

레이어별 프로빙을 통한 선호도 형성 과정 규명

모달리티 선호도가 초기 레이어가 아닌 중간 및 후반 레이어(40-70% 깊이)에서 급격히 형성되고 안정화된다는 메커니즘을 시각화와 분석을 통해 증명했다.

선호도 신호를 이용한 환각 진단 도구 개발

모델 내부의 선호도 확률 변화를 감지하여 별도의 학습 데이터 없이도 POPE 등 벤치마크에서 최대 94%의 AUROC로 교차 모달 환각을 성공적으로 탐지했다.

핵심 아이디어 이해하기

기존의 시각-언어 모델(VLM)은 텍스트 데이터를 중심으로 학습되어 시각 정보보다 텍스트 지시문을 맹신하는 '텍스트 지배력' 문제를 겪어왔다. 하지만 모든 모달리티를 하나의 벡터 공간(Unified Representation Space)에 투영하는 최신 옴니모달 모델(OLLM)에서는 이러한 역학 관계가 완전히 달라진다.

이 논문은 모델 내부의 각 레이어가 데이터를 처리할 때 특정 모달리티에 더 높은 가중치를 부여한다는 점에 주목한다. Softmax 함수를 통해 출력되는 확률 분포를 분석해보면, 모델은 입력된 여러 정보 중 자신이 더 '신뢰'하는 모달리티의 특징을 선택적으로 증폭시킨다. 이는 마치 여러 명의 증인이 서로 다른 말을 할 때, 평소 더 믿음직하다고 생각하는 증인의 말을 선택하는 것과 유사한 원리다.

결과적으로 OLLM은 학습 과정에서 시각 정보의 풍부한 특징(Feature)을 더 강력한 단서로 인식하게 되었으며, 이러한 내부적 편향이 모델의 최종 답변을 결정짓는 핵심 요소로 작용한다. 연구팀은 이 선호도가 형성되는 지점을 찾아냄으로써 모델이 언제 잘못된 정보를 선택하여 환각을 일으키는지 예측할 수 있게 되었다.

관련 Figure

#1Diagram
모델이 '폭포 소리' 텍스트와 '뻐꾸기' 오디오 대신 '첼로 연주' 이미지를 선택하는 과정을 통해 시각 모달리티 선호 현상을 직관적으로 설명한다. 이는 논문이 해결하고자 하는 핵심 문제인 모달리티 간 경쟁을 정의한다.
텍스트, 이미지, 오디오 정보가 서로 충돌하는 Tri-modal Conflict 입력 상황과 모델의 시각 선호 출력을 보여주는 다이어그램이다.

방법론

전체 접근 방식은 Tri-modal Conflict 프레임워크를 통해 모델의 행동을 관찰하고, 내부 레이어에 선호도 예측기(Linear Probe)를 부착하여 분석하는 구조이다. 먼저 XModBench를 기반으로 {텍스트, 이미지, 오디오}가 각각 다른 정답을 가리키는 충돌 데이터를 생성하여 모델의 선택 비율(MSR)을 측정한다.

레이어별 프로빙 단계에서는 각 디코더 레이어 l의 마지막 토큰 위치에서 은닉 상태 h_i^(l)를 추출한다. 이 벡터를 L2-정규화(L2-normalization) 과정인 h / ||h||_2를 거쳐 크기 변화를 제거하고 방향성 정보만 남긴다. [정규화된 벡터 입력 → 단일 레이어 MLP 연산 → 3개 모달리티에 대한 확률 분포 출력] 과정을 통해 해당 레이어가 선호도 정보를 얼마나 포함하고 있는지 계산한다.

학습 시에는 모델의 최종 Softmax 분포에서 얻은 확률값을 Soft Label로 사용하여 Cross-Entropy Loss를 최소화하는 방향으로 프로브를 최적화한다. [-Σ y_i log(y_hat_i) 계산 → 실제 모델의 선호도와 프로브 예측값의 차이 도출 → 가중치 업데이트] 순으로 진행되어 모델 내부의 의사결정 상태를 정밀하게 추적한다.

관련 Figure

#4Diagram
각 디코더 레이어의 은닉 상태를 추출하여 선호도를 예측하는 프로브를 학습시키는 과정을 보여준다. 이를 통해 선호도가 Absent에서 Peak를 거쳐 Declining으로 변하는 단계를 체계적으로 분석할 수 있음을 나타낸다.
레이어별 선호도 프로브 학습 파이프라인을 나타낸 다이어그램이다.

주요 결과

Gemini 3.1 Pro는 3중 충돌 상황에서 시각 정보 선택률(MSR) 72%를 기록한 반면, 텍스트는 7%에 그쳐 강력한 시각 편향을 보였다. 평가된 10개 모델 중 8개 모델이 50% 이상의 이미지 MSR을 기록하며 시각 정보에 대한 높은 신뢰도를 나타냈다.

오디오 모달리티는 모든 모델에서 체계적으로 무시되는 경향이 확인되었다. Tri-modal 설정에서 오디오 MSR은 모든 모델에서 21% 미만이었으며, Ming-Lite-Omni 1.5의 경우 단 1%에 불과했다. 이는 현재 옴니모달 모델들이 오디오 정보를 통합하는 데 있어 여전히 한계가 있음을 시사한다.

환각 탐지 실험에서 제안된 프로빙 방법은 POPE 데이터셋 기준 평균 94%의 AUROC를 달성했다. 이는 랜덤 추측(50%)이나 초기 레이어 기반 예측(51%)을 압도하는 수치로, 모델 내부의 선호도 변화가 환각 발생과 매우 밀접한 상관관계가 있음을 입증했다.

관련 Figure

#2Chart
대부분의 모델에서 주황색(이미지) 막대가 가장 길게 나타나며 시각 선호도를 증명한다. 특히 Gemini 계열 모델에서 이러한 경향이 두드러지며, 오디오(초록색)는 일관되게 낮은 비중을 차지함을 보여준다.
10종의 주요 OLLM에 대한 3중 모달리티 선택률(MSR) 결과 차트이다.

기술 상세

OLLM 아키텍처 내부에서 모달리티 선호도가 형성되는 과정을 4단계(Absent, Emerging, Peak, Declining)로 정의했다. 분석 결과 선호도 신호는 초기 30% 레이어에서는 거의 나타나지 않다가 40-70% 구간에서 급격히 발현되는 '창발적 특성'을 보인다.

SVD(특이값 분해) 분석을 통해 은닉 상태를 투영한 결과, 초기 레이어(Layer 5)에서는 모달리티별 특징이 완전히 섞여 있으나 중간 레이어(Layer 24)에 도달하면 텍스트, 이미지, 오디오 카테고리가 명확하게 클러스터링되는 것을 확인했다. 이는 모델이 추상적인 추론 단계로 넘어갈 때 모달리티 간의 경쟁과 선택이 이루어짐을 의미한다.

모델 규모에 따른 차이도 발견되었다. Qwen3-Omni-30B와 같은 대형 모델은 소형 모델보다 더 이른 레이어에서 선호도 신호가 나타나며, 최종 레이어에서의 성능 저하(Declining phase)도 더 완만하게 일어나는 경향을 보였다.

관련 Figure

#7Chart
레이어가 깊어질수록(Layer 5 → 24) 혼재되어 있던 모달리티 데이터들이 명확한 군집을 형성하는 과정을 보여준다. 이는 모델 내부에서 모달리티 선호도가 물리적으로 어떻게 구조화되는지 시각적으로 입증한다.
Qwen2.5-Omni-7B 모델의 레이어별 은닉 상태를 SVD로 투영한 시각화 자료이다.

한계점

본 연구는 주로 판별적 작업(Discriminative tasks)에서의 선호도를 다루고 있으며, 생성적 작업(Generative tasks)에서의 복합적인 상호작용에 대해서는 추가적인 연구가 필요하다. 또한 현재의 분석은 특정 벤치마크 데이터셋의 범주 내에서 이루어졌다.

실무 활용

모델의 내부 신호를 모니터링하여 실시간으로 환각 발생 가능성을 경고하거나 차단하는 진단 도구로 활용할 수 있다.

멀티모달 챗봇의 답변 신뢰도 실시간 점검 및 사용자 경고 시스템
특정 모달리티(예: 오디오)에 대한 모델의 이해도를 높이기 위한 데이터 증강 전략 수립
모델 학습 과정에서 모달리티 간 균형을 맞추기 위한 체크포인트 선정 지표

코드 공개 여부: 공개

코드 저장소 보기

키워드

OLLM(옴니모달 대형 언어 모델)Modality Preference(모달리티 선호도)Cross-modal Hallucination(교차 모달 환각)Model Probing(모델 프로빙)MSR(모달리티 선택률)

텍스트 지배력을 넘어서: 옴니모달 대형 언어 모델의 모달리티 선호도 이해

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

모달리티 선호도 정량화 프레임워크 구축

OLLM의 시각 정보 선호 경향 발견

레이어별 프로빙을 통한 선호도 형성 과정 규명

선호도 신호를 이용한 환각 진단 도구 개발

모델 내부의 선호도 확률 변화를 감지하여 별도의 학습 데이터 없이도 POPE 등 벤치마크에서 최대 94%의 AUROC로 교차 모달 환각을 성공적으로 탐지했다.

핵심 아이디어 이해하기

관련 Figure

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

관련 Figure

한계점

실무 활용

모델의 내부 신호를 모니터링하여 실시간으로 환각 발생 가능성을 경고하거나 차단하는 진단 도구로 활용할 수 있다.

멀티모달 챗봇의 답변 신뢰도 실시간 점검 및 사용자 경고 시스템
특정 모달리티(예: 오디오)에 대한 모델의 이해도를 높이기 위한 데이터 증강 전략 수립
모델 학습 과정에서 모달리티 간 균형을 맞추기 위한 체크포인트 선정 지표

코드 공개 여부: 공개

코드 저장소 보기

키워드

OLLM(옴니모달 대형 언어 모델)Modality Preference(모달리티 선호도)Cross-modal Hallucination(교차 모달 환각)Model Probing(모델 프로빙)MSR(모달리티 선택률)

텍스트 지배력을 넘어서: 옴니모달 대형 언어 모델의 모달리티 선호도 이해

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

텍스트 지배력을 넘어서: 옴니모달 대형 언어 모델의 모달리티 선호도 이해

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드