TWIML AI PodcastAI/ML57분2025년 12월 10일 04:46 KST2달 전

시각 언어 모델(VLM)이 시각 정보를 무시하는 이유와 해결책

퀄컴 AI 리서치의 무나와르 하야트가 시각 언어 모델(VLM)의 시각 정보 경시 현상과 물리적 이해력 부족의 원인을 분석하고 아키텍처적 해결책을 제시한다.

핵심 요약

현재의 VLM은 언어 모델의 강력한 사전 학습 지식에 의존하여 시각 정보를 소홀히 다루는 경향이 있으며, 이를 해결하기 위해 모델 아키텍처 수준에서 시각 정보를 더 깊이 통합해야 한다.

배경

퀄컴 AI 리서치의 연구원 무나와르 하야트가 NeurIPS에서 발표한 시각 언어 모델(VLM)의 성능 저하 원인 분석 연구를 소개한다.

대상 독자

AI 연구원, 멀티모달 모델 개발자, 로보틱스 엔지니어

의미 / 영향

로보틱스 및 정밀 시각 작업에서 VLM을 활용하기 위해서는 단순한 텍스트-이미지 정렬을 넘어선 아키텍처 혁신이 필수적이다. 특히 물리적 속성을 정확히 반영하는 데이터셋 구축과 언어 모델의 편향을 억제하는 어텐션 구조 설계가 향후 멀티모달 AI 발전의 핵심 과제가 될 것이다.

섹션별 상세

00:00

퀄컴의 멀티모달 AI 연구와 온디바이스 효율화

퀄컴 AI 리서치에서 수행 중인 멀티모달 생성형 AI 연구 성과가 공개됐다. 모바일 하드웨어에서 확산 모델(Diffusion Model)을 0.5초 미만으로 실행하는 효율화 작업과 시각적 질의응답(VQA) 모델의 온디바이스 구현 사례가 포함됐다. 연구의 주된 목적은 시각 콘텐츠의 이해, 생성 및 교차 모달 정보 검색 성능을 높이는 것이다.

•모바일 기기에서 확산 모델의 0.5초 미만 실행 달성
•시각적 질의응답(VQA) 모델의 온디바이스 최적화
•멀티모달 이해, 생성, 검색의 세 가지 핵심 영역 집중

04:30

시각 생성 모델의 물리적 이해력 부족 문제

현재의 파운데이션 모델들이 상자를 쌓거나 내리는 것과 같은 단순한 물리적 작업을 시뮬레이션할 때 물체의 크기나 모양을 왜곡하는 한계가 지적됐다. 상자를 옮기는 과정에서 물체의 물리적 속성이 변하는 현상은 로봇이 인간 환경에서 작동하기 위해 필수적인 물리적 세계에 대한 이해가 부족함을 시사한다. 서랍을 열 때의 시각적 변화를 예측하지 못하고 새로운 물체를 환각(Hallucination)해내는 문제도 확인됐다.

•상자 옮기기 등 단순 물리 작업에서 물체 속성 왜곡 발생
•로보틱스 적용을 위한 물리적 세계 이해의 중요성
•서랍 열기 등 일상적 동작에 대한 시각적 예측 실패

09:00

VLM이 시각 정보를 무시하는 현상과 원인 분석

시각 모델과 언어 모델을 결합했을 때 언어 모델의 파라미터 메모리가 시각 정보를 압도하는 현상이 분석됐다. NeurIPS 논문을 통해 VLM이 공간적 대응(Spatial Correspondence) 작업에서 무작위 확률보다 낮은 성능을 보이는 원인이 어텐션 스코어 분석으로 증명됐다. 모델이 '상자의 색상'을 질문받았을 때 실제 시각 토큰보다 언어적 맥락에 더 의존하는 경향이 발견됐다.

•언어 모델의 메모리가 시각적 입력을 압도하는 현상 확인
•공간적 대응 작업에서 기대치 이하의 성능 기록
•추론 과정에서 시각 토큰에 대한 어텐션 스코어 저하

VLM은 시각 토큰과 텍스트 토큰을 연결하여 처리하는데, 이 과정에서 텍스트 데이터의 압도적인 학습량 때문에 시각 정보가 소외되는 현상을 말한다.

13:00

데이터셋과 벤치마크의 한계

웹에서 수집한 이미지-텍스트 쌍 데이터에 물리적 속성에 대한 설명이 부족하다는 점이 문제의 원인으로 꼽혔다. 또한 기존 벤치마크들이 시각 정보 없이 언어 모델의 지식만으로도 정답을 맞힐 수 있게 설계되어 모델의 시각 처리 능력을 정확히 평가하지 못한다는 사실이 밝혀졌다. 예를 들어 '코끼리의 색상' 같은 질문은 이미지를 보지 않고도 언어 모델이 답변할 수 있는 정보이다.

•훈련 데이터 내 물리적 속성 기술의 부재
•시각 정보 없이 해결 가능한 기존 벤치마크의 문제점
•언어 모델의 사전 지식에 의존하는 평가 방식의 한계

15:30

해결책: 계층적 교차 어텐션 구조 제안

시각 정보를 언어 모델의 여러 계층에 주입하는 '계층적 교차 어텐션(Interleaved Cross-Attention)' 구조가 해결책으로 제시됐다. 트랜스포머 블록 4개마다 교차 어텐션 모듈을 배치하여 모델이 추론 과정에서 시각 토큰에 더 집중하도록 유도하는 방식이다. 이를 통해 언어 모델의 강력한 성능을 유지하면서도 시각적 세부 사항을 놓치지 않는 정렬(Alignment)이 가능해졌다.

•언어 모델 블록 사이에 교차 어텐션 모듈 삽입
•다양한 계층에서 시각 정보를 반복적으로 주입
•언어 지식과 시각적 세부 사항의 균형 잡힌 정렬

주목할 인용

“모델이 상자를 옮길 때 상자의 물리적 속성이 변합니다. 모양이 왜곡되거나 크기가 달라지는데, 이는 로봇이 인간 환경에서 작동하는 데 큰 문제입니다.”
Munawar Hayat·05:15
현재 생성 모델의 물리적 이해력 부족을 설명하며

“시각 모델과 언어 모델을 결합하면 시각 정보는 무시되고 언어 모델이 주도권을 잡게 됩니다.”
Munawar Hayat·09:45
VLM의 어텐션 메커니즘 분석 결과를 공유하며

실무 Takeaway

현재의 VLM은 시각 정보보다 언어 모델의 사전 학습된 지식에 과도하게 의존하는 경향이 있다.
로보틱스 분야 적용을 위해서는 모델이 물리적 세계의 법칙(크기, 모양 유지 등)을 이해하도록 추가 학습이 필요하다.
단순한 데이터 정렬을 넘어 아키텍처 수준에서 시각 정보를 계층적으로 주입하는 방식이 성능 개선에 효과적이다.

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

시각 언어 모델(VLM)이 시각 정보를 무시하는 이유와 해결책 | AI Trends