핵심 요약
최신 멀티모달 모델들이 복잡한 추론은 잘하면서도 정작 '물체 개수 세기' 같은 기초적인 시각 인지에서 실패하는 원인을 분석했다. 시각 정보가 언어 모델 층을 거치며 희석되고 텍스트 학습 데이터의 통계적 편향에 의존하게 되는 '시각적 주의력 결핍' 현상을 규명하고 이를 해결할 수 있는 새로운 학습 기법을 제시했다.
왜 중요한가
최신 멀티모달 모델들이 복잡한 추론은 잘하면서도 정작 '물체 개수 세기' 같은 기초적인 시각 인지에서 실패하는 원인을 분석했다. 시각 정보가 언어 모델 층을 거치며 희석되고 텍스트 학습 데이터의 통계적 편향에 의존하게 되는 '시각적 주의력 결핍' 현상을 규명하고 이를 해결할 수 있는 새로운 학습 기법을 제시했다.
관련 Figure

모델이 차트 분석 같은 고차원 작업은 수행하면서도 단순한 구슬 개수를 틀리는 현상을 진단한다. 시각 정보가 LLM 융합 과정에서 'Attention Sink'에 빠져 소실되는 과정을 시각화하여 설명한다.
VLM의 복잡한 추론 능력과 단순 개수 세기 능력의 괴리를 보여주는 다이어그램
핵심 기여
COUNTINGTRICKS 평가 스위트 구축
물체의 크기, 모양, 인접성 및 패치 분할 레이아웃 등 32가지 시나리오를 포함하는 18,000개의 테스트 케이스를 통해 VLM의 개수 세기 능력을 정밀하게 측정하는 벤치마크를 제안했다.
VLM 내부의 시각 정보 손실 메커니즘 규명
Probing 분석을 통해 시각 정보가 Modality Projector 단계에서는 강하게 유지되지만, LLM 레이어를 거치면서 텍스트 사전 지식(Text Priors)에 압도되어 사라지는 'Visual Attention Sink' 현상을 발견했다.
Modality Attention Share(MAS) 기법 제안
답변 생성 시 최소한의 시각적 주의력을 강제로 할당하도록 유도하는 미분 가능한 정규화 손실 함수를 도입하여 추가적인 아키텍처 변경 없이 모델의 접지(Grounding) 능력을 개선했다.
관련 Figure

물체의 크기, 격자 정렬 방식, 인접도 등을 체계적으로 변화시켜 VLM의 시각 인지 한계를 테스트하는 환경을 보여준다. 1A(중앙 정렬)부터 8A(큰 크기)까지 다양한 난이도를 구성한다.
COUNTINGTRICKS 벤치마크에서 사용된 32가지 시각적 시나리오 예시
핵심 아이디어 이해하기
Transformer 기반의 VLM은 이미지 패치를 토큰화하여 텍스트 토큰과 함께 처리한다. 이때 모델은 시각적 증거를 바탕으로 추론해야 하지만, 실제로는 학습 과정에서 익힌 언어적 확률 분포(예: '사과는 보통 바구니에 5개쯤 있다')에 더 의존하려는 경향이 있다. 이를 '언어적 지배력'이라고 하며, 이로 인해 눈앞의 이미지를 무시하고 엉뚱한 숫자를 답하게 된다.
연구진은 시각 정보가 모델의 초기 층에서는 정확하게 존재하지만, 뒤로 갈수록 시스템 프롬프트나 이전 텍스트 토큰들에 주의력(Attention)을 빼앗긴다는 점을 확인했다. 즉, 모델이 '못 보는 것'이 아니라 '안 보는 것'이 문제의 핵심이다.
이를 해결하기 위해 답변을 생성하는 시점에 시각 토큰에 할당되는 Attention의 비율이 일정 수준(τ) 이하로 떨어지지 않도록 강제하는 장치를 만들었다. 이는 모델이 텍스트만 보고 추측하는 대신, 매 순간 이미지를 다시 확인하도록 '시선을 고정'시키는 효과를 준다.
방법론
VLM의 정보 흐름을 추적하기 위해 Vision Encoder, Projector, LLM 각 단계에 경량 객체 검출 헤드(YOLO probe)를 부착하여 시각적 특징의 보존 상태를 측정했다. 각 단계의 특징 맵을 입력으로 받아 객체의 위치를 예측하고 Average Precision(AP)을 계산하여 정보의 품질을 수치화했다.
Modality Attention Share(MAS)는 학습 시 적용되는 정규화 기법이다. 특정 레이어 l과 헤드 h에서 시각 토큰 집합 V와 텍스트 토큰 집합 X에 대한 Attention 가중치 A를 사용하여 MAS_l = (Σ_{j∈V} A_{t→j}) / (Σ_{j∈V∪X} A_{t→j})를 계산한다. 이 값은 전체 주의력 중 시각 정보가 차지하는 비율을 의미한다.
계산된 MAS 값이 설정된 임계값 τ보다 작을 경우, L_mas = max(0, τ - MAS)라는 Hinge Loss를 발생시킨다. [τ - MAS 연산을 통해] → [시각 주의력이 부족한 만큼의 오차값을 구하고] → [이 값을 전체 손실 함수에 더해] → [역전파를 통해 모델이 시각 토큰에 더 많은 가중치를 두도록 가중치를 갱신한다].
주요 결과
10종의 최신 오픈소스 VLM을 테스트한 결과, LLaVA-1.5-7B는 평균 11.82%의 낮은 정확도를 보였으며 가장 성능이 좋은 Qwen2.5-VL-7B도 50.52%에 그쳤다. 특히 물체가 서로 붙어 있는 'Adjacency Collapse' 상황에서 모든 모델의 성능이 급격히 하락했다.
Probing 실험에서 Qwen2.5-VL의 AP@0.5 점수는 Projector 단계에서 0.554였으나 LLM 단계에서는 0.282로 급감했다. 이는 시각적 신호가 언어 추론 과정에서 심각하게 희석됨을 증명한다.
MAS 기법을 적용했을 때 Ovis-2.5 모델은 합성 데이터셋(Circles)에서 정확도가 84.9%에서 85.2%로, 실제 이미지 데이터셋(FSC-Val)에서 17.5%에서 17.7%로 향상되었다. Qwen3-VL의 경우 합성 데이터에서 18.2%에서 30.4%로 큰 폭의 개선을 보였다.
관련 Figure

대부분의 모델에서 Projector 단계(녹색)까지는 시각 정보가 잘 유지되다가 LLM 단계(빨간색)에서 성능이 급격히 하락함을 보여준다. 이는 정보 손실이 발생하는 병목 지점을 명확히 짚어준다.
모델별, 단계별(Encoder, Projector, LLM) 객체 검출 성능(AP@0.5) 비교 차트
기술 상세
본 연구는 VLM의 'Visual Attention Sink' 현상을 정량적으로 분석했다. 모델이 생성하는 토큰 중 약 89.3%의 Attention 예산이 시스템 프롬프트와 지시사항에 할당되며, 시각 토큰에는 10.7%만이 배정된다는 사실을 밝혀냈다. 이는 모델이 정답을 맞히더라도 실제 시각적 근거에 기반한 것이 아니라 확률적 추측(Probabilistic Guessing)일 가능성이 높음을 시사한다.
또한 'Number Avoidance' 현상을 발견했는데, 모델들이 특정 숫자(특히 7, 11 같은 소수)에 대해 0%에 가까운 정확도를 보이는 등 학습 데이터의 숫자 빈도에 강하게 편향되어 있음을 확인했다. MAS는 이러한 언어적 편향을 억제하고 시각적 접지를 강제하는 미분 가능한 제어 메커니즘으로 작동한다.
한계점
MAS 기법이 모든 모델과 데이터셋에서 일관되게 성능을 보장하지는 않는다. 특정 임계값(τ) 설정에 따라 출력 형식 유지나 언어적 추론 능력과 트레이드오프가 발생할 수 있으며, 단순히 주의력 양을 늘리는 것만으로는 복잡한 공간 구조를 완전히 보존하기에 부족할 수 있다.
실무 활용
VLM의 고질적인 문제인 '환각(Hallucination)' 중에서도 수량 인지 오류를 줄이는 데 즉시 활용 가능하다. 특히 추가적인 파라미터나 복잡한 구조 변경 없이 손실 함수 수정만으로 성능을 높일 수 있다는 점이 실무적이다.
- 재고 관리 시스템에서 이미지 내 상품 개수 자동 카운팅 정확도 향상
- 의료 영상 분석 시 특정 세포나 병변의 개수를 세는 작업의 신뢰도 보강
- VLM 기반 에이전트가 시각적 지시사항(예: '사과 3개를 바구니에 담아줘')을 수행할 때의 오류 감소
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.