읽기일 뿐, 생각하기가 아니다: 멀티모달 LLM에서 텍스트가 픽셀이 될 때 발생하는 모달리티 격차의 이해와 해소

왜 중요한가

멀티모달 모델이 텍스트를 이미지로 볼 때 성능이 급락하는 원인이 지능 부족이 아닌 '읽기 오류'와 '추론 과정의 생략'에 있음을 정밀 진단했다. 모델 스스로의 텍스트 추론 경로를 이미지 학습의 가이드로 삼는 자가 증류 방식을 통해 추가 데이터 없이도 시각적 이해도를 획기적으로 개선할 수 있음을 입증했다.

핵심 기여

모달리티 격차의 체계적 진단 및 원인 규명

7개 MLLM을 대상으로 텍스트와 이미지 입력 간의 성능 차이를 분석하여, 수학 문제(GSM8K)에서 최대 60점 이상의 성능 하락이 발생함을 확인했다. 이러한 하락이 논리적 사고력의 부재가 아닌 시각적 인식 오류와 추론 단계의 단축(Collapse)에서 기인함을 밝혔다.

렌더링 변수의 임팩트 정량화

폰트 종류, 해상도, 색상 등 시각적 표현 방식이 모델 성능에 미치는 영향을 분석했다. 폰트 선택 하나만으로 정확도가 최대 47%p까지 변동될 수 있음을 보여주며, 벤치마크 평가 시 렌더링 사양 명시의 중요성을 입증했다.

자가 증류(Self-Distillation)를 통한 격차 해소

모델이 텍스트 모드에서 생성한 고품질 추론 경로(CoT traces)를 이미지 입력과 쌍을 지어 학습시키는 기법을 제안했다. 이를 통해 Qwen3-VL-8B의 GSM8K 이미지 모드 정확도를 30.71%에서 92.72%로 향상시켰다.

범용적 성능 개선 및 전이 효과 확인

특정 데이터셋(GSM8K)으로 학습한 자가 증류 모델이 학습하지 않은 ARC, MMLU 등 다른 벤치마크에서도 성능 향상을 보였으며, 기존의 텍스트 처리 능력을 유지하면서도 시각적 이해도를 높이는 데 성공했다.

핵심 아이디어 이해하기

기존 멀티모달 모델은 텍스트를 추상적인 토큰으로 처리할 때와 픽셀 이미지로 처리할 때 서로 다른 경로를 사용한다. 텍스트 모드에서는 풍부한 사전 학습 데이터를 바탕으로 단계별 추론(Chain-of-Thought)을 잘 수행하지만, 이미지 모드에서는 Vision Encoder가 텍스트 정보를 압축하는 과정에서 미세한 숫자나 기호를 누락시키는 '읽기 오류'가 발생한다. 또한 시각적 입력이 주어지면 모델이 논리적 단계를 건너뛰고 성급하게 답만 내놓으려는 경향이 나타난다.

이 논문의 핵심 아이디어는 모델이 이미 텍스트 모드에서 보유하고 있는 '사고 능력'을 이미지 모드로 전이시키는 것이다. 모델에게 동일한 문제를 텍스트로 풀게 하여 정답에 이르는 논리적 경로를 스스로 생성하게 한 뒤, 이를 정답지(Target)로 삼아 이미지 입력을 받았을 때도 똑같은 사고 과정을 복제하도록 학습시킨다. 이는 마치 정답만 아는 학생에게 풀이 과정을 직접 쓰게 하여 논리 구조를 체득시키는 것과 같다.

결과적으로 모델은 이미지 속의 픽셀 패턴을 단순한 그림이 아니라 텍스트 모드에서 다루던 논리적 토큰들과 연결하게 된다. 이를 통해 시각적 인식의 정확도가 높아질 뿐만 아니라, 이미지 입력 시에도 생략되었던 추론 단계가 복구되어 전체적인 문제 해결 능력이 텍스트 모드 수준으로 회복된다.

방법론

연구진은 5가지 입력 모드(Pure Text, Pure Image, Instr.+Image, OCR-1P, OCR-2P)를 설계하여 읽기(Reading)와 추론(Reasoning) 단계를 분리 분석했다. 특히 OCR-2P 모드는 이미지에서 텍스트를 먼저 추출한 뒤 이를 다시 텍스트 입력으로 넣어 문제를 풀게 함으로써, 성능 저하가 시각적 추출 단계에서 발생하는지 아니면 추출된 내용에 대한 추론 단계에서 발생하는지를 명확히 구분했다.

자가 증류(Self-Distillation) 학습을 위해 GSM8K 데이터셋의 텍스트 모드 추론 경로(CoT traces)를 수집했다. 학습 과정에서는 [이미지 입력 + 텍스트 지시어]를 입력값으로 넣고, 모델이 생성한 텍스트 모드의 추론 경로를 타겟값으로 설정하여 Cross-Entropy Loss를 계산했다. [입력 데이터 → Transformer 연산 → 토큰별 확률 분포 출력 → 타겟 토큰과의 오차 계산] 순으로 연산이 이루어지며, 모델은 이미지 픽셀로부터 텍스트 모드와 동일한 논리 전개를 생성하도록 최적화된다.

학습 효율을 위해 LoRA(Low-Rank Adaptation) 기법을 적용했다. 가중치 행렬 W에 대해 저순위 분해 행렬 A와 B를 도입하여 W' = W + AB 형태의 업데이트를 수행했다. [입력 벡터 x → Ax → B(Ax) → 가중치 변화량 계산] 과정을 통해 전체 파라미터의 0.1% 미만인 rank=64의 어댑터만 학습시켰으며, Vision Encoder와 Language Model을 동시에 혹은 개별적으로 튜닝하며 최적의 조합을 탐색했다.

주요 결과

Qwen3-VL-8B 모델에 자가 증류를 적용한 결과, GSM8K 이미지 모드 정확도가 30.71%에서 92.72%로 급등했다. 이는 텍스트 모드 성능(93.56%)과의 격차를 1%p 이내로 줄인 결과다. 특히 모델이 스스로 생성한 오답 경로를 제외한 '필터링된 데이터'로 학습했을 때 가장 높은 성능을 보였으나, 오답을 포함한 전체 경로로 학습해도 91.28%의 높은 정확도를 기록하여 데이터 정제에 대한 의존도가 낮음을 확인했다.

자연스러운 문서 이미지(Natural Images) 실험에서는 MLLM들이 텍스트 모드보다 오히려 이미지 모드에서 더 높은 성능을 보이는 현상이 발견됐다. QASPER 데이터셋에서 GPT-5.2는 텍스트 모드 51.92% 대비 이미지 모드 77.25%를 기록했다. 이는 최신 MLLM들이 대규모 문서 이미지 데이터를 사전 학습에 활용하면서 실제 PDF 레이아웃이나 구조적 특징을 파악하는 데 최적화되어 있음을 시사한다.

렌더링 변수 분석에서는 폰트의 영향력이 막대했다. 기본 폰트 대비 필기체(Handwriting) 폰트 사용 시 모델들의 정확도가 급격히 하락했으며, 특정 모델은 폰트 변경만으로 47%p의 성능 차이를 보였다. 해상도의 경우 대부분의 모델이 0.5배 수준까지는 성능을 유지했으나 그 이하에서는 급락한 반면, InternVL3.5는 0.25배 해상도에서도 성능 저하가 거의 없는 강건함을 보였다.

실무 활용

이 연구는 추가적인 수동 라벨링 없이 모델의 기존 능력을 활용해 시각적 텍스트 이해도를 높이는 실용적인 경로를 제시한다. 특히 수학, 코딩, 과학 등 정밀한 논리 추론이 필요한 도메인의 문서 처리 시스템 구축에 즉각적인 개선 효과를 제공할 수 있다.

PDF 문서 내 복잡한 수식 및 도표를 인식하여 단계별 풀이를 제공하는 교육용 AI 서비스
다양한 폰트와 서식이 혼재된 기업 내부 문서의 고정밀 정보 추출 및 논리적 요약 도구
스크린샷 이미지 속의 코드를 분석하고 실행 흐름을 설명하는 개발자 보조 에이전트

기술 상세

본 논문은 MLLM의 '모달리티 격차'가 Vision Encoder의 표현력 한계보다는 Language Model이 시각적 토큰을 받았을 때 추론 모드로 진입하지 못하는 '트리거링 실패'에 더 큰 원인이 있음을 시사한다. 텍스트 모드에서는 평균 600자 이상의 상세한 추론을 수행하던 모델이 이미지 입력 시에는 30자 내외로 답변을 단축하는 현상이 이를 뒷받침한다.

자가 증류 학습 시 Language Model(LM)만 튜닝하는 것이 Vision Encoder(ViT)만 튜닝하는 것보다 성능 향상 폭이 훨씬 컸다. 이는 시각적 특징 추출 능력의 개선보다, 추출된 시각적 특징을 언어 모델의 논리 체계와 정렬시키는 과정이 모달리티 격차 해소의 핵심임을 의미한다. 구체적으로 8B 규모의 LM에 LoRA를 적용하는 것이 0.4B 규모의 ViT를 튜닝하는 것보다 더 많은 지식을 흡수할 수 있는 용량을 제공한다.

학습 데이터 구성 시 텍스트 모드 학습 데이터를 이미지 증류 데이터와 혼합하여 학습함으로써 '치명적 망각'을 방지했다. 이를 통해 단일 벤치마크(GSM8K)에 대한 튜닝이 모델의 일반적인 추론 능력을 훼손하지 않고 오히려 다른 시각적 추론 과제에 긍정적인 전이 효과(Transfer Learning)를 일으키는 메커니즘을 확인했다.

렌더링 사양에 대한 분석 결과, 1280x720 해상도의 캔버스에 10pt 크기의 작은 텍스트를 배치하는 '스마트 압축' 방식이 고해상도 렌더링보다 더 효율적일 수 있음을 발견했다. 이는 모델이 처리해야 할 픽셀 수는 줄이면서도 텍스트의 시각적 특징을 보존하여 연산 효율과 정확도를 동시에 잡을 수 있는 구현 전략을 제시한다.

한계점

OCR-2P(텍스트 추출 후 재입력) 방식이 HumanEval과 같은 코딩 작업에서 들여쓰기나 공백 등 구조적 정보를 유실시켜 성능을 완전히 파괴하는 한계가 관찰됐다. 또한 자가 증류 학습 시 모델이 텍스트 모드에서 이미 틀린 답을 낸 경로를 학습할 경우의 잠재적 노이즈 문제에 대한 추가 연구가 필요하다.

키워드

MLLM(멀티모달 대형 언어 모델)Modality Gap(모달리티 격차)Self-Distillation(자가 증류)Visual Text Understanding(시각적 텍스트 이해)Chain-of-Thought(사고의 사슬)