왜 중요한가
기존의 시각-언어 모델 효율화 방식은 이미지 정보를 강제로 줄여 세밀한 이해력을 떨어뜨리는 문제가 있었다. 이 논문은 정보를 버리는 대신 텍스트와 이미지 사이의 계산 횟수를 지능적으로 조절하여, 성능 저하 없이 연산량을 획기적으로 줄이는 새로운 패러다임을 제시한다.
핵심 기여
시각 토큰 보존형 효율화 프레임워크 VISOR 제안
이미지 토큰을 삭제하거나 압축하여 정보 병목 현상을 일으키는 기존 방식과 달리, 시각 정보를 온전히 유지하면서 텍스트-이미지 간 상호작용 레이어만 희소하게 실행하여 효율성을 높인다.
텍스트-이미지 상호작용의 작업별 의존성 규명
간단한 작업은 적은 수의 Cross-Attention만으로 충분하지만, 복잡한 추론 작업은 시각 표현을 정교화하는 Self-Attention 레이어가 추가로 필요함을 데이터셋별 분석을 통해 입증한다.
샘플별 복잡도에 따른 동적 연산 할당 정책 도입
가벼운 정책 네트워크를 통해 각 입력 샘플의 난이도를 예측하고, 이에 최적화된 Self-Attention 레이어 조합을 실시간으로 선택하여 추론 비용을 최적화한다.
핵심 아이디어 이해하기
기존의 Transformer 기반 멀티모달 모델은 모든 레이어에서 텍스트 토큰이 모든 이미지 토큰을 참조하도록 설계되어 있어, 이미지 해상도가 높아질수록 연산량이 제곱으로 늘어난다. 이를 해결하기 위해 기존 연구들은 이미지 토큰의 개수 자체를 줄이는 방식을 썼지만, 이는 작은 글씨나 세밀한 도표를 읽어야 하는 복잡한 작업에서 치명적인 정보 손실을 초래한다.
VISOR는 모든 레이어에서 이미지를 볼 필요가 없다는 직관에서 출발한다. 대부분의 레이어에서는 텍스트 정보만 처리하고, 시각 정보가 꼭 필요한 특정 지점에서만 Cross-Attention을 통해 이미지를 참조한다. 특히, 단순히 이미지를 읽는 것을 넘어 이미지 자체의 특징을 더 깊게 파악해야 할 때만 선택적으로 이미지 토큰 간의 Self-Attention을 수행하여 시각 표현을 업데이트한다.
결과적으로 모델은 쉬운 질문에는 최소한의 시각 정보만 훑어보고 빠르게 답하며, 어려운 질문에는 더 많은 레이어를 활성화해 꼼꼼히 분석하는 동적 시각 처리 능력을 갖추게 된다. 이는 고해상도 이미지 처리에 따르는 막대한 연산 비용을 성능 하락 없이 효과적으로 제어할 수 있게 한다.
방법론
전체 아키텍처는 텍스트 전용 레이어와 시각 상호작용 레이어를 분리하여 구성한다. 대부분의 Transformer 레이어는 텍스트 토큰만 처리하며, 특정 인덱스 집합에 위치한 레이어에서만 Cross-Attention을 수행하여 시각 정보를 텍스트 스트림에 주입한다. [텍스트 쿼리와 이미지 키/값을 입력으로] → [텍스트가 이미지의 특정 부분을 참조하는 가중치 합 연산을 수행해] → [시각 정보가 섞인 텍스트 벡터를 얻고] → [이미지 정보를 텍스트 문맥에 통합함].
세밀한 추론이 필요한 경우를 위해 선택적인 Self-Attention 레이어 집합을 도입한다. 해당 레이어에서는 텍스트와 이미지 토큰 전체에 대해 표준 Transformer 연산을 수행하여 시각 표현을 업데이트한다. [텍스트와 이미지 전체 토큰을 입력으로] → [모든 토큰 쌍 간의 유사도를 계산하고 가중 평균하는 연산을 수행해] → [업데이트된 토큰 벡터들을 얻고] → [텍스트와 이미지 간의 깊은 상호 이해 및 이미지 특징의 정교화를 달성함].
다양한 연산 예산에 대응하기 위해 Universal VISOR 학습 전략을 사용한다. 최대 구성으로 사전 학습된 모델에서 무작위로 Self-Attention 레이어 부분집합을 선택하여 미세 조정함으로써, 하나의 모델이 여러 연산 비용 모드에서 견고하게 작동하도록 만든다. 이후 가벼운 MLP 기반 정책 네트워크를 추가하여 최적의 레이어 구성을 예측한다. [질문 토큰의 임베딩을 입력으로] → [MLP 레이어를 통한 분류 연산을 수행해] → [활성화할 레이어 인덱스 번호를 얻고] → [해당 샘플 처리에 필요한 최적의 연산량을 결정함].
주요 결과
LLaVA-OV (0.5B) 모델을 기반으로 실험한 결과, VISOR는 기존 SOTA 대비 정확도를 유지하거나 상회하면서도 평균 8.6배의 FLOP 절감을 달성했다. 특히 DocVQA와 같은 고해상도 정밀 추론이 필요한 Hard 데이터셋에서 토큰 삭제 방식들이 성능이 급락하는 것과 대조적으로, VISOR는 원본 모델에 근접한 성능을 유지했다.
토큰 삭제 기법과 결합한 VISOR-TR 버전의 경우, 정확도 손실을 최소화하면서 최대 18배에서 35배까지 연산량을 줄일 수 있음이 확인됐다. 이는 두 접근 방식이 서로 보완적임을 시사한다.
Ablation Study를 통해 Cross-Attention만으로는 복잡한 작업 해결이 불가능하며, 적절한 위치에 배치된 소수의 Self-Attention 레이어가 시각적 정교화에 필수적임이 입증됐다. 또한 동적 라우팅 정책이 고정된 레이어 구성보다 효율성-정확도 트레이드오프 측면에서 우수함이 나타났다.
실무 활용
고해상도 이미지 처리가 필요한 문서 이해나 차트 분석 서비스에서 추론 비용을 획기적으로 낮추면서도 정확도를 유지할 수 있는 실용적인 기술이다.
- 고해상도 문서(DocVQA) 분석 서비스의 서버 비용 절감
- 모바일 기기 등 저사양 환경에서의 실시간 멀티모달 챗봇 구현
- 복잡한 도표 및 그래프 해석이 필요한 금융/기술 데이터 분석 자동화
기술 상세
VISOR는 표준 LVLM의 Transformer 레이어를 Text-only, Cross-Attention, Full Self-Attention 세 가지 유형으로 재정의한다. Cross-Attention 레이어는 복잡도가 시각 토큰 수에 선형적으로 비례하므로, 제곱에 비례하는 Full Self-Attention 대비 훨씬 가볍다. 시각 토큰의 위치 정보 보존을 위해 1D depth-wise convolutional layer를 이용한 조건부 위치 임베딩(Conditional Positional Embeddings)을 적용하여 국소적/전역적 정보를 효과적으로 캡처한다.
Universal 학습 방식은 모델이 다양한 레이어 스킵 구성에 적응하도록 돕는 일종의 정규화 역할을 수행한다. 실험 결과 하나의 범용 모델이 독립적으로 학습된 여러 예산별 모델들보다 더 높은 성능을 기록했다. 정책 네트워크는 질문 뒤에 특수 라우팅 토큰을 추가하여 MLP를 통해 최적의 구성을 예측하며, 학습 시에는 99% 이상의 정확도를 유지하면서 가장 적은 레이어를 사용하는 구성을 타겟으로 삼는 오프라인 의사 라벨링 기법을 사용한다.
한계점
매우 공격적인 토큰 감소율(예: 4배 이상)을 적용할 경우, 정보 병목 현상으로 인해 복잡한 작업(Hard tasks)에서 성능 저하가 뚜렷하게 나타남이 확인됐다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.