핵심 요약
기존 멀티모달 모델은 고해상도 이미지를 처리할 때 불필요한 배경까지 모두 연산하여 속도가 느려지는 문제가 있었다. Q-Zoom은 질문의 의도를 파악해 필요한 부분만 골라 고해상도로 다시 보는 방식을 도입하여, 정확도는 유지하면서도 연산 비용과 추론 시간을 획기적으로 줄였다.
왜 중요한가
기존 멀티모달 모델은 고해상도 이미지를 처리할 때 불필요한 배경까지 모두 연산하여 속도가 느려지는 문제가 있었다. Q-Zoom은 질문의 의도를 파악해 필요한 부분만 골라 고해상도로 다시 보는 방식을 도입하여, 정확도는 유지하면서도 연산 비용과 추론 시간을 획기적으로 줄였다.
핵심 기여
Dynamic Gating Network를 통한 질의 기반 라우팅
가벼운 게이팅 네트워크를 통해 입력된 질문이 저해상도 이미지 정보만으로 답변 가능한지 판단한다. 간단한 질문은 고해상도 처리를 건너뛰어 추론 속도를 높인다.
Self-Distilled Region Proposal Network (SD-RPN)
추가적인 학습 데이터 없이 모델 내부의 Attention Map을 활용해 질문과 관련된 핵심 영역(RoI)을 스스로 찾아낸다. 이를 통해 배경 노이즈를 제거하고 중요한 세부 정보에만 집중한다.
연속적 시공간 정렬 및 타겟팅된 Post-SFT
잘라낸 고해상도 영역을 원래 이미지의 위치 정보와 일치시키는 새로운 위치 인코딩 방식을 제안한다. 또한 모델이 전역 맥락과 지역 세부 정보를 조화롭게 이해하도록 전용 데이터셋으로 미세 조정했다.
핵심 아이디어 이해하기
Transformer 아키텍처의 Self-Attention은 입력 토큰 수의 제곱에 비례하여 연산량이 증가한다. 고해상도 이미지를 그대로 입력하면 수천 개의 토큰이 생성되어 추론 속도가 급격히 느려지는데, 이 중 상당수는 질문과 무관한 배경 정보인 경우가 많다.
Q-Zoom은 이 문제를 해결하기 위해 '먼저 훑어보고 필요한 곳만 자세히 보기' 전략을 취한다. 먼저 저해상도 이미지와 질문을 입력받아, 모델 내부의 중간 특징(intermediate feature) 단계에서 질문에 답하기 위해 더 자세한 정보가 필요한지 Dynamic Gating Network가 결정한다.
만약 정밀한 관찰이 필요하다면 SD-RPN이 작동하여 질문과 가장 관련이 깊은 영역을 찾아낸다. 이 과정에서 모델이 이미 계산한 Attention 점수를 활용해 별도의 외부 도구 없이도 정확한 위치를 특정한다. 결과적으로 전체 이미지를 고해상도로 처리하는 대신, 꼭 필요한 부분만 고해상도로 다시 읽어 들여 연산 효율을 극대화한다.
방법론
전체 프레임워크는 2단계 적응형 파이프라인으로 구성된다. 1단계에서는 Dynamic Gating Network가 질문의 복잡도를 평가하여 직접 응답할지, 아니면 고해상도 추출 과정을 거칠지 결정한다. [질문 토큰의 마지막 hidden state 입력] → [Linear Layer 및 Sigmoid 연산] → [0~1 사이의 확률값 출력] → [임계값보다 높으면 RoI 추출 트리거] 순으로 작동한다.
2단계인 SD-RPN은 모델의 중간 레이어에서 시각적 특징과 질문 특징을 결합하여 관심 영역(RoI)을 예측한다. [중간 레이어의 시각 특징과 질문 특징 입력] → [내적(Inner Product) 연산으로 Heatmap 생성] → [가우시안 필터 및 이진화] → [최종 Bounding Box 좌표 획득] 과정을 거친다.
추출된 RoI는 고해상도로 재인코딩되며, Continuous Spatio-Temporal Alignment를 통해 원래 위치 정보를 유지한다. [원본 좌표와 잘라낸 영역의 좌표 입력] → [Temporal Shift 및 Spatial Interpolation 연산] → [새로운 위치 임베딩 생성] 과정을 통해 모델이 지역적 세부 사항을 전체 맥락 속에서 올바르게 인식하게 한다.
관련 Figure

Consistency-aware 생성을 통해 게이팅 네트워크를 학습시키고, 추론 시에는 질문에 따라 직접 응답하거나 RoI를 추출하여 응답하는 2단계 구조를 보여준다. 이는 연산 효율성과 정확도 사이의 균형을 어떻게 맞추는지 시각적으로 설명한다.
Q-Zoom의 전체 아키텍처와 학습 및 추론 파이프라인 개요도
주요 결과
Qwen2.5-VL-7B 모델에 적용했을 때, Document & OCR 벤치마크에서 기존 대비 2.52배, 고해상도 시나리오에서는 4.39배의 추론 속도 향상을 달성했다. 특히 시각적 토큰 사용량을 각각 53.0%와 73.2% 절감하면서도 정확도는 베이스라인 모델의 최고 성능과 대등하거나 오히려 상회하는 결과를 보였다.
최대 성능 설정 시 Document 벤치마크에서 1.1%, 고해상도 벤치마크에서 8.1%의 성능 향상을 기록했다. 이는 불필요한 배경 토큰을 제거함으로써 모델이 핵심 정보에 더 집중할 수 있게 되었음을 의미한다. 또한 LLaVA, Qwen3-VL 등 다양한 아키텍처에서도 일관된 성능 향상을 입증하여 범용성을 확인했다.
기술 상세
Q-Zoom은 MLLM의 중간 레이어가 강력한 시각적 접지(Visual Grounding) 능력을 갖추고 있다는 점에 착안하여 설계되었다. SD-RPN은 동결된 백본의 중간 특징을 재사용하는 가벼운 브랜치로 구현되어 파라미터 증가를 최소화했다. 학습 시에는 외부 라벨 없이 모델 스스로 생성한 Attention Map을 정제하여 의사 라벨(Pseudo-label)로 사용하는 자가 증류(Self-distillation) 방식을 채택했다.
특히 'Sink Token'이라 불리는, 의미 없이 높은 Attention을 받는 토큰들을 L2-norm 임계값으로 필터링하여 노이즈를 제거하는 기법을 도입했다. 또한 위치 인코딩의 충돌을 방지하기 위해 RoI 토큰에 시간적 오프셋(Temporal Shift)을 부여하고, 좌표 공간을 보간(Interpolation)하여 고해상도 토큰이 전역 좌표계에 정확히 매핑되도록 설계했다.
관련 Figure

모델 내부의 특징을 활용해 Heatmap을 생성하고 이를 의사 라벨과 비교하여 학습하는 과정을 상세히 나타낸다. 외부 데이터 없이도 정밀한 영역 제안이 가능한 기술적 근거를 제시한다.
SD-RPN의 작동 원리와 자가 증류 학습 과정 다이어그램

Attention 점수가 매우 높거나 낮은 토큰은 정답 영역인지 여부가 확실하지만, 중간 범위는 모호하다는 점을 보여준다. 이를 통해 논문에서 제안한 tri-state 라벨링 전략의 필요성을 데이터로 입증한다.
Attention 점수 크기와 실제 정답 영역(Ground Truth) 포함 여부의 상관관계 그래프
한계점
논문은 LLaVA와 같이 베이스 해상도가 매우 낮은 모델(336x336)의 경우, 게이팅 네트워크가 거의 모든 테스트 이미지에 대해 RoI 브랜치를 트리거하게 되어 효율성 개선 폭이 제한적일 수 있음을 언급했다.
실무 활용
문서 이해, OCR, 정밀한 장면 분석이 필요한 멀티모달 서비스에서 추론 비용을 획기적으로 줄이면서 성능을 높이는 데 즉시 활용 가능하다.
- 모바일 기기 등 저사양 환경에서의 고해상도 문서 이미지 분석
- 대규모 이미지 데이터셋에서 특정 객체나 텍스트를 정밀하게 추출해야 하는 파이프라인
- 실시간 응답이 중요한 멀티모달 챗봇의 추론 가속화
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.