핵심 요약
현재의 VLM은 언어 모델의 강력한 사전 학습 지식에 의존하여 시각 정보를 소홀히 다루는 경향이 있으며, 이를 해결하기 위해 모델 아키텍처 수준에서 시각 정보를 더 깊이 통합해야 한다.
배경
퀄컴 AI 리서치의 연구원 무나와르 하야트가 NeurIPS에서 발표한 시각 언어 모델(VLM)의 성능 저하 원인 분석 연구를 소개한다.
대상 독자
AI 연구원, 멀티모달 모델 개발자, 로보틱스 엔지니어
의미 / 영향
로보틱스 및 정밀 시각 작업에서 VLM을 활용하기 위해서는 단순한 텍스트-이미지 정렬을 넘어선 아키텍처 혁신이 필수적이다. 특히 물리적 속성을 정확히 반영하는 데이터셋 구축과 언어 모델의 편향을 억제하는 어텐션 구조 설계가 향후 멀티모달 AI 발전의 핵심 과제가 될 것이다.
섹션별 상세
퀄컴의 멀티모달 AI 연구와 온디바이스 효율화
- •모바일 기기에서 확산 모델의 0.5초 미만 실행 달성
- •시각적 질의응답(VQA) 모델의 온디바이스 최적화
- •멀티모달 이해, 생성, 검색의 세 가지 핵심 영역 집중
시각 생성 모델의 물리적 이해력 부족 문제
- •상자 옮기기 등 단순 물리 작업에서 물체 속성 왜곡 발생
- •로보틱스 적용을 위한 물리적 세계 이해의 중요성
- •서랍 열기 등 일상적 동작에 대한 시각적 예측 실패
VLM이 시각 정보를 무시하는 현상과 원인 분석
- •언어 모델의 메모리가 시각적 입력을 압도하는 현상 확인
- •공간적 대응 작업에서 기대치 이하의 성능 기록
- •추론 과정에서 시각 토큰에 대한 어텐션 스코어 저하
VLM은 시각 토큰과 텍스트 토큰을 연결하여 처리하는데, 이 과정에서 텍스트 데이터의 압도적인 학습량 때문에 시각 정보가 소외되는 현상을 말한다.
데이터셋과 벤치마크의 한계
- •훈련 데이터 내 물리적 속성 기술의 부재
- •시각 정보 없이 해결 가능한 기존 벤치마크의 문제점
- •언어 모델의 사전 지식에 의존하는 평가 방식의 한계
해결책: 계층적 교차 어텐션 구조 제안
- •언어 모델 블록 사이에 교차 어텐션 모듈 삽입
- •다양한 계층에서 시각 정보를 반복적으로 주입
- •언어 지식과 시각적 세부 사항의 균형 잡힌 정렬
주목할 인용
“모델이 상자를 옮길 때 상자의 물리적 속성이 변합니다. 모양이 왜곡되거나 크기가 달라지는데, 이는 로봇이 인간 환경에서 작동하는 데 큰 문제입니다.”
Munawar Hayat·05:15현재 생성 모델의 물리적 이해력 부족을 설명하며
“시각 모델과 언어 모델을 결합하면 시각 정보는 무시되고 언어 모델이 주도권을 잡게 됩니다.”
Munawar Hayat·09:45VLM의 어텐션 메커니즘 분석 결과를 공유하며
실무 Takeaway
- 현재의 VLM은 시각 정보보다 언어 모델의 사전 학습된 지식에 과도하게 의존하는 경향이 있다.
- 로보틱스 분야 적용을 위해서는 모델이 물리적 세계의 법칙(크기, 모양 유지 등)을 이해하도록 추가 학습이 필요하다.
- 단순한 데이터 정렬을 넘어 아키텍처 수준에서 시각 정보를 계층적으로 주입하는 방식이 성능 개선에 효과적이다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료