좁은 시야에서 파노라마 시야로: 어텐션 가이드 콜드스타트를 통한 멀티모달 추론의 재구성

멀티모달 추론 모델이 시각 정보를 충분히 활용하지 못하는 '게으른 어텐션' 현상을 발견하고 이를 정량화하는 지표인 VAS를 제안했다. 텍스트 위주의 초기 학습이 오히려 시각 정보 활용 능력을 높인다는 역설적 발견을 바탕으로, 모델이 이미지에 더 집중하게 만드는 새로운 학습 프레임워크를 통해 성능을 크게 개선했다.

왜 중요한가

핵심 기여

Visual Attention Score (VAS) 지표 도입

모델이 추론 과정에서 시각적 토큰에 얼마나 집중하는지 정량화하는 어텐션 기반 지표를 제안했으며, 이 점수가 멀티모달 추론 성능과 매우 높은 상관관계(r=0.9616)를 가짐을 입증했다.

Lazy Attention Localization 현상 규명

멀티모달 콜드스타트 학습이 시각적 어텐션을 높이지 못하고 베이스 모델의 분포를 유지하는 반면, 텍스트 전용 학습이 오히려 시각적 접지 능력을 강화한다는 역설적인 현상을 발견했다.

AVAR(Attention-Guided Visual Anchoring and Reflection) 프레임워크 제안

시각적 앵커를 포함한 데이터 합성, 어텐션 가이드 학습 목적 함수, 시각적 보상 설계를 통합하여 모델의 시각적 집중도를 강제로 높이는 콜드스타트 방법론을 구축했다.

Qwen2.5-VL 기반 성능 입증

제안된 AVAR 프레임워크를 Qwen2.5-VL-7B 모델에 적용한 결과, 7개의 주요 멀티모달 추론 벤치마크에서 평균 7.0%의 성능 향상을 기록했다.

핵심 아이디어 이해하기

기존의 Multimodal Large Reasoning Models (MLRMs)는 시각 정보와 텍스트 정보를 결합하여 복잡한 추론을 수행하도록 설계되었다. 하지만 Transformer 아키텍처의 Attention Mechanism 특성상, 모델이 실제로는 이미지 토큰보다 시스템 프롬프트나 텍스트 토큰에 과도하게 의존하는 경향이 있으며, 이는 시각적 정보가 필수적인 추론 작업에서 성능 저하와 환각을 유발하는 원인이 된다. 본 논문은 모델이 이미지에 얼마나 집중하는지를 측정하기 위해 Visual Attention Score (VAS)를 정의했다. 분석 결과, 멀티모달 데이터를 사용한 초기 학습이 오히려 시각적 집중도를 높이지 못하는 'Lazy Attention Localization' 현상을 발견했다. 이는 모델이 이미 익숙한 텍스트 패턴에 안주하여 새로운 시각적 신호를 적극적으로 수용하지 않기 때문에 발생한다. 이를 해결하기 위해 AVAR 프레임워크는 모델이 추론 과정 중에 이미지를 다시 확인하라는 식의 명시적인 시각적 앵커를 텍스트 데이터에 삽입한다. 또한 Loss Function을 수정하여 시각적 토큰에 대한 Attention 가중치를 높이고 시스템 토큰에 대한 의존도를 낮추도록 강제함으로써, 모델이 시각 정보를 추론의 핵심 근거로 삼는 파노라마 시야를 갖게 만든다.

방법론

Visual Attention Score (VAS) 계산 방식. 레이어 l과 헤드 h에서의 어텐션 행렬 A(l, h)가 주어질 때, 사용자 쿼리 토큰 i가 시각적 토큰 집합 V에 할당하는 가중치 합을 시스템 토큰 집합 S에 할당하는 가중치 합으로 나눈 비율을 계산한다. [쿼리-키 어텐션 값 입력 → 시각 토큰 대비 시스템 토큰 비율 연산 → VAS 출력 → 모델의 시각 정보 의존도 의미]. AVAR 데이터 합성 파이프라인. Gemini 2.5-Pro를 사용하여 고정밀 시각 묘사를 생성하고, Qwen3-235B를 통해 시각적 성찰이 포함된 추론 체인을 만든 뒤, Qwen3-32B로 삼각형을 다시 보라는 식의 명시적 시각 앵커를 삽입한다. 어텐션 가이드 학습 목적 함수. 표준 언어 모델링 손실에 시각 강화 손실과 시스템 억제 손실을 추가한다. [어텐션 가중치 입력 → 로그 스케일의 가중치 합산 연산 → 손실값 출력 → 시각 토큰 집중도 유도 의미]. 시각적 보상 설계. 강화학습 단계에서 정답 여부뿐만 아니라 추론 과정 중 시각적 토큰에 할당된 어텐션 비율을 보상으로 제공한다. [추론 로그 입력 → 시각/시스템 어텐션 비율 연산 → 보상값 출력 → 지속적인 시각적 접지 유지 의미].

주요 결과

Qwen2.5-VL-7B 모델에 AVAR를 적용한 AVAR-Thinker 모델은 7개 벤치마크에서 평균 7.0%의 성능 향상을 보였다. 특히 기하학적 추론이 필요한 MathVision에서 +12.2%, 시각적 환각 억제 능력을 측정하는 HallusionBench에서 +8.8%의 큰 개선을 기록했다. Ablation Study 결과, 시각적 앵커 데이터(VARD)만 사용했을 때 성능이 1.7% 향상되었으며, 여기에 어텐션 가이드 학습(AGTO)과 시각적 보상(VARS)을 순차적으로 추가할 때마다 성능이 계단식으로 상승하여 최종적으로 7.0% 향상을 달성했다. VAS 분석 결과, 베이스 모델의 VAS는 7.5였으나 AVAR-Thinker는 18.9까지 상승했다. 이는 모델이 추론 시 시각적 정보를 활용하는 비중이 2.5배 이상 증가했음을 의미하며, 성능 향상과 VAS 상승 사이의 강력한 상관관계를 재확인했다.

실무 활용

멀티모달 모델의 시각적 이해도를 정량적으로 평가하고 개선할 수 있는 실무적인 프레임워크를 제공한다. 특히 추가적인 모델 파라미터 수정 없이 추론 시 어텐션 조절만으로도 성능 향상이 가능하다는 점이 강점이다.

복잡한 기하학 문제 풀이 및 도표 분석 AI 서비스
의료 영상 기반 진단 보조 시스템의 환각 방지
자율 주행 및 로봇 제어에서의 시각적 접지 능력 강화
멀티모달 챗봇의 이미지 기반 추론 정확도 개선

기술 상세

VAS(Visual Attention Score)는 모델의 내부 어텐션 분포를 분석하여 시각적 접지의 정도를 수치화한 지표다. 연구진은 이를 통해 기존 멀티모달 학습이 시각 정보를 충분히 학습하지 못하는 Lazy Attention Localization 현상을 발견했으며, 이는 모델이 텍스트 패턴에 과적합되어 시각적 신호를 무시하는 현상임을 규명했다. AVAR 프레임워크의 핵심은 학습 데이터와 목적 함수 모두에 시각적 집중을 강제하는 메커니즘을 심는 것이다. 데이터 측면에서는 Visual Anchor를 삽입하여 모델이 텍스트를 생성하는 중간중간 이미지를 참조하도록 유도하고, 학습 단계에서는 Attention 가중치 자체를 최적화 대상에 포함시킨다. 강화학습 단계에서는 GRPO(Group Relative Policy Optimization) 알고리즘을 사용하며, 여기에 시각적 어텐션 비율을 보상 함수로 통합했다. 이는 모델이 단순히 정답 토큰을 맞추는 것을 넘어, 정답에 도달하는 과정에서 시각적 근거를 충분히 활용했는지를 평가 지표로 삼는다는 점에서 기존 RLHF와 차별화된다.

키워드

MLRM(멀티모달 대형 추론 모델)VAS(시각적 어텐션 점수)Cold-start(콜드스타트)Visual Grounding(시각적 접지)Attention Mechanism(어텐션 메커니즘)GRPO(그룹 상대 정책 최적화)

좁은 시야에서 파노라마 시야로: 어텐션 가이드 콜드스타트를 통한 멀티모달 추론의 재구성

왜 중요한가

핵심 기여

Visual Attention Score (VAS) 지표 도입

Lazy Attention Localization 현상 규명

AVAR(Attention-Guided Visual Anchoring and Reflection) 프레임워크 제안

Qwen2.5-VL 기반 성능 입증

제안된 AVAR 프레임워크를 Qwen2.5-VL-7B 모델에 적용한 결과, 7개의 주요 멀티모달 추론 벤치마크에서 평균 7.0%의 성능 향상을 기록했다.

좁은 시야에서 파노라마 시야로: 어텐션 가이드 콜드스타트를 통한 멀티모달 추론의 재구성

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

키워드

좁은 시야에서 파노라마 시야로: 어텐션 가이드 콜드스타트를 통한 멀티모달 추론의 재구성

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드