핵심 요약
동일한 시각적 정보가 필요한 질문이라도 '예/아니오'나 '객관식'처럼 형식이 제한되면 VLM이 이미지보다 텍스트 단서에 의존하며 성능이 저하되는 현상을 규명했다. 이는 벤치마크 평가 방식이 모델의 실제 능력을 왜곡할 수 있음을 시사하며, 간단한 프롬프트 튜닝만으로도 시각적 집중력을 회복할 수 있는 해결책을 제시한다.
왜 중요한가
동일한 시각적 정보가 필요한 질문이라도 '예/아니오'나 '객관식'처럼 형식이 제한되면 VLM이 이미지보다 텍스트 단서에 의존하며 성능이 저하되는 현상을 규명했다. 이는 벤치마크 평가 방식이 모델의 실제 능력을 왜곡할 수 있음을 시사하며, 간단한 프롬프트 튜닝만으로도 시각적 집중력을 회복할 수 있는 해결책을 제시한다.
핵심 기여
질문 프레이밍에 따른 선택적 시각 장애 규명
동일한 시각적 추론이 필요한 작업임에도 질문이 객관식이나 예/아니오 형식으로 주어질 때 모델이 이미지에 대한 주의(Attention)를 대폭 줄이고 텍스트 편향에 의존하는 현상을 발견했다.
Attention Rollout을 활용한 시각적 정보 흐름 분석
단순 주의력 가중치 평균이 아닌 Attention Rollout 기법을 통해 초기 레이어의 시각 토큰이 최종 출력 임베딩으로 전달되는 경로를 추적하여, 제한된 프레이밍에서 시각적 에너지가 급격히 감소함을 입증했다.
시각적 주의력 재정렬을 위한 경량 프롬프트 튜닝 제안
모델 가중치를 수정하지 않고 소수의 학습 가능한 토큰(Learnable Tokens)을 추가하여, 제한된 질문 형식에서도 주관식 질문과 유사한 시각적 주의 패턴을 갖도록 유도함으로써 성능과 일관성을 개선했다.
핵심 아이디어 이해하기
Transformer 기반 VLM은 텍스트와 이미지 토큰 간의 Attention Mechanism을 통해 정보를 통합한다. 하지만 최근 연구들은 VLM이 실제 이미지를 보기보다 학습 데이터의 텍스트 패턴(Text Priors)에 의존해 답을 내놓는 '시각적 이탈(Visual Disengagement)' 문제를 지적해 왔다.
본 논문은 이러한 현상이 모델의 고정된 결함이 아니라 질문의 '형식(Framing)'에 따라 가변적으로 나타난다는 점에 주목한다. 주관식 질문에서는 이미지를 잘 살피던 모델이, 동일한 내용의 객관식 질문을 받으면 시각 토큰에 할당하는 Attention 에너지를 줄이고 의미 없는 배경 토큰이나 텍스트 단서에 집중하는 '선택적 장애'를 보인다.
연구진은 이를 해결하기 위해 주관식 질문 시 나타나는 건강한 Attention 패턴을 '정답지'로 삼았다. 제한된 질문 형식에서도 모델이 이미지의 핵심 영역(Bounding Box)을 다시 바라보게 만드는 학습 가능한 소프트 토큰을 삽입함으로써, 모델의 시각적 인지 프로세스를 정상화하고 추론의 정확도를 높였다.
방법론
질문 프레이밍의 영향을 분리하기 위해 GPT-5.1을 사용하여 동일한 시각적 추론을 요구하는 질문을 주관식(Open-ended), 예/아니오(Yes/No), 객관식(MCQ)의 세 가지 버전으로 재구성한 GQAF 및 V*F 데이터셋을 구축했다.
시각적 의존도를 측정하기 위해 Attention Rollout 기법을 적용했다. 각 레이어 l의 주의력 행렬 W_att에 잔차 연결을 반영한 A = 0.5 * W_att + 0.5 * I를 정의하고, 이를 레이어별로 재귀적으로 곱하여 R_l = N(A_l * diag(S)) * R_{l-1}을 계산했다. [입력 토큰 간의 주의력 행렬 → 잔차 연결 및 수용장 정규화 적용 → 레이어별 누적 곱셈 수행 → 최종 출력 토큰이 각 시각 토큰을 참조하는 실제 비중 산출]
Attention Steering 실험을 통해 인과 관계를 검증했다. 제한된 프레이밍의 Attention Map에 특정 배율(Multiplier)을 곱해 주관식 수준으로 강제 상향시킨 결과, 모델의 정확도가 회복됨을 확인했다. [주관식 대비 부족한 시각 에너지 비율 계산 → 제한된 질문 추론 시 해당 비율만큼 시각 토큰 가중치 증폭 → 소프트맥스 재정규화 → 시각 정보 주입량 증가에 따른 성능 변화 측정]
최종적으로 'Attention Realignment via Prompt Tuning'을 제안했다. 냉동된(Frozen) VLM에 8개의 학습 가능한 토큰을 추가하고, 주관식 질문의 Attention 분포를 모방하도록 KL Divergence 손실과 시각 에너지 크기를 맞추는 L2 손실을 결합하여 학습시켰다.
주요 결과
Qwen2.5-VL-7B 모델 기준, GQA 데이터셋에서 주관식으로 맞춘 문제를 객관식이나 예/아니오로 바꿨을 때 틀리는 '교차 프레이밍 불일치' 비율이 최대 26%에 달했으며, SeedBench에서는 38%까지 나타났다. 특히 공간 관계 파악이나 객체 개수 세기 등 정밀한 시각적 접지(Grounding)가 필요한 작업에서 불일치가 심화됐다.
시각적 에너지 분석 결과, 제한된 프레이밍에서는 주관식 대비 시각 토큰에 대한 주의력이 약 40~50% 감소했다. 반면 의미 없는 'Sink Tokens'에 대한 주의력은 증가했으며, 전체적인 주의력 분포의 엔트로피가 높아져 특정 영역에 집중하지 못하고 분산되는 경향을 보였다.
제안한 프롬프트 튜닝 기법을 적용했을 때, Qwen2.5-VL-7B는 V* 벤치마크에서 2.5%p 성능 향상을 기록했으며 HRBench8k 등 정밀 접지 작업에서도 일관된 개선을 보였다. 특히 시각적 주의력을 직접 교정하는 'Attention Alignment Loss'가 성능 향상의 핵심 동인임을 Ablation Study를 통해 입증했다.
실무 활용
VLM을 실무에 적용할 때 질문 형식에 따라 모델이 이미지를 무시할 수 있다는 위험성을 인지해야 하며, 제안된 경량 튜닝 기법은 모델 전체를 재학습하지 않고도 특정 도메인에서의 시각적 정확도를 높이는 데 유용하다.
- 의료 영상 분석 등 정밀한 시각적 판단이 필요한 객관식 진단 보조 시스템의 신뢰성 강화
- VLM 기반의 벤치마크 평가 시 질문 형식에 따른 성능 왜곡(Bias)을 보정하는 평가 도구 개발
- 자율 주행이나 로봇 제어 환경에서 센서 데이터(이미지)를 무시하고 텍스트 명령에만 치중하는 현상 방지
- 저사양 하드웨어에서 대규모 VLM의 시각적 인지 능력을 개선하기 위한 효율적인 어댑터 학습
기술 상세
본 연구는 VLM의 시각적 장애가 정적인 아키텍처의 한계가 아니라 입력 프롬프트의 구조에 의해 유도되는 동적인 행동임을 메커니즘적으로 분석했다. 특히 중간 레이어(12~22층)에서 시각과 텍스트 정보가 교차 모달 상호작용을 일으킬 때 이러한 주의력 이탈이 시작됨을 발견했다.
Attention Rollout 계산 시 인과적 마스킹(Causal Masking)으로 인한 편향을 제거하기 위해 수용장(Receptive Field) 크기에 따른 정규화를 도입했다. 이는 자기회귀적(Autoregressive) Transformer 구조에서 후속 토큰이 이전 토큰보다 더 많은 주의력을 받는 구조적 특성을 보정하여 순수한 정보 흐름을 측정하기 위함이다.
프롬프트 튜닝 시 학습 가능한 토큰의 위치를 분석한 결과, 질문 토큰과 지시어(Instruction) 토큰 사이에 배치하는 'Infix' 방식이 가장 효과적이었다. 이는 질문의 맥락에 따라 시각적 주의력을 동적으로 조절하는 데 유리하기 때문으로 해석된다.
손실 함수는 Next-token Prediction을 위한 Cross-Entropy Loss와 Attention Alignment Loss의 가중 합으로 구성된다. Alignment Loss는 총 시각 에너지의 차이를 줄이는 L2 항과 공간적 분포를 맞추는 KL Divergence 항으로 나뉘며, 모델의 확신도(Confidence)에 따라 샘플별 가중치를 부여하여 학습의 안정성을 높였다.
한계점
본 연구는 5가지 주요 VLM 제품군을 대상으로 분석을 수행했으나, Mamba 기반 VLM이나 Mixture-of-Experts(MoE) 모델과 같은 최신 아키텍처에서도 동일한 프레이밍 유도 주의력 이탈 현상이 발생하는지는 추가 연구가 필요하다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료