LLaVA-UHD v4: MLLMs에서 효율적인 Visual Encoding의 핵심

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

고해상도 입력에서 비전 인코더의 Self-Attention은 토큰 수 제곱에 비례하는 계산 비용을 유발한다. SE(Slice-based Encoding)는 로컬 패치를 독립적으로 인코딩하여 지역 세부 정보를 보존하면서 전체 대역의 연산을 줄인다. 또한 intra-ViT 초기 압축 D를 도입해 ViT의 앞 단계에서 토큰을 미리 감소시키면 이후 계층의 FLOPs가 크게 감소하고,OCR/문서 이해/일반 VQA 벤치마크에서 성능 저하 없이 효율성을 크게 높일 수 있다.

왜 중요한가

고해상도 입력에서 비전 인코더의 Self-Attention은 토큰 수 제곱에 비례하는 계산 비용을 유발한다. SE(Slice-based Encoding)는 로컬 패치를 독립적으로 인코딩하여 지역 세부 정보를 보존하면서 전체 대역의 연산을 줄인다. 또한 intra-ViT 초기 압축 D를 도입해 ViT의 앞 단계에서 토큰을 미리 감소시키면 이후 계층의 FLOPs가 크게 감소하고,OCR/문서 이해/일반 VQA 벤치마크에서 성능 저하 없이 효율성을 크게 높일 수 있다.

핵심 기여

Slice-based encoding의 우수성 증명

GE와 비교한 SE의 벤치마크 성능은 평균적으로 SE가 더 좋거나 동일하며, 데이터 규모가 커질수록 SE의 우위가 커진다. OCR 집중 태스크에서 SE가 더 큰 이점을 보이며, MoonViT 백본에서도 SE의 효과가 지속된다.

intra-ViT 초기 압축 도입

ViT의 얕은 계층에 window-attention downsampling 모듈 D를 삽입하고, 2×2 윈도우에서의 정보 융합 후 4× 축소를 수행한다. 파라미터 재사용 초기화로 pretrained ViT의 표현 맵에 가깝게 시작한다.

두 단계 토큰 압축으로 총 16× 감소 달성

D와 이후 post-ViT MLP 압축기로 원시 비주얼 패치를 LLM 입력으로 전달하기 전 16×(4×4) 축소를 달성한다. 이로써 비주얼 인코딩 FLOPs를 55.75% 감소시키고 downstream 정확도 손실은 거의 없다.

다양한 벤치마크에서 유효성 확인

OCRBench, MMBench(EN/ CN), MathVista, HallusionBench, MMMU 등 8개 벤치마크에서 Post-ViT Baseline과의 차이가 작았고, 평균 차이는 −0.29 포인트에 그쳤다.

핵심 아이디어 이해하기

출발점: 고해상도 이미지는 ViT 내부에서 토큰 수 증가로 인해 계산 비용이 급증한다. 기존의 글로벌 인코딩은 전체 영상에 대해 한 번에 self-attention을 적용하므로 토큰 예산이 소진될 때까지 비용이 급증한다. 제안은 두 축으로 작동한다. 첫째, slice-based encoding(SE)은 이미지의 로컬 뷰를 분리하여 각 뷰에서 정보에 집중하도록 한다. 둘째, intra-ViT D 모듈은 ViT의 얕은 계층에 삽입되어 토큰 수를 조기에 감소시키고, 이후 ViT 계층은 더 적은 토큰으로 동작한다. 이로써 ViT 내부의 연산이 크게 감소하고, 후속 MLP 기반 압축기로 남은 정보를 효과적으로 정리한다. 이 구성은 16× 토큰 감소를 달성하면서도 downstream에서 평균적으로 ±0.8 포인트의 정확도 차이를 보이며, 8개 벤치마크에서 안정적인 성능을 유지한다.

방법론

전체 접근: 슬라이스 기반 인코딩(SE) + 내재형 압축 모듈 D를 ViT 내부에 삽입하고, 후에 MLP 압축기로 최종 LLM 입력 토큰 수를 줄이는 2단계 압축 체계이다. 2) intra-ViT 압축 모듈 D의 구성: window-attention 2×2를 이용해 인접 토큰 간 지역 컨텍스트를 확장하고, 2×2 Patch들을 PixelUnshuffle로 변환한 후 MLP로 채널을 융합해 d 차원으로 축소한다. 3) 파라미터 재사용 Initialization: D의 윈도우 어텐션의 가중치, FFN의 가중치 등을 바로 앞 ViTLayer의 가중치로 재활용하여 pretrained 표현 망을 파괴하지 않도록 한다. 4) 삽입 위치와 규격: k=6 위치에 삽입하고 4× 축소를 수행하며, 이후 ViT의 나머지 계층은 축소된 토큰으로 연산한다. 5) 학습 및 데이터: 네 단계 학습(Fusion)으로 비전-언어 정렬, OCR/문서 데이터 주입, 다중 이미지 연합 학습, 지도형 instruction tuning을 수행한다. 6) 평가: 8개 벤치마크에서 Post-ViT Baseline과 동일한 최종 토큰 수(16×)로 비교하며, 4M–64M 데이터 규모에서 벤치마크별 성능과 FLOPs를 측정한다.

주요 결과

주요 결과는 아래와 같다. intra-ViT 초기 압축은 정확도에서 Post-ViT Baseline에 근접하게 유지하면서 시각 인코딩 비용을 대폭 줄였다. 16× 압축 비율에서 비주얼 인코딩 FLOPs는 3555.1G에서 1573.1G로 감소해 55.75%의 감소를 보였다. 4M에서 64M까지의 다양한 학습 데이터 규모에서 평균 성능은 ±0.8 포인트 이내로 유지되었고, 평균 편차는 −0.29 포인트였다. Ablation 연구에서는 Window-Attention + Reused MLP 구성이 최적으로, 8M 데이터 규모에서 평균 점수 70.7을 달성했고, 16M에서 73.1, 32M에서 74.2, 64M에서 75.6으로 증가했다. 삽입 깊이(k) 변화에 대한 분석은 k=6이 Pareto 최적이며, k=3은 FLOPs가 크게 감소하지만 평균 점수가 39.7로 급락했고, k=9/15는 FLOPs 증가에도 불구하고 성능이 미미하게 늘어나지 않았다. Fig. 2는 평균 정확도와 비용의 트레이드오프를 보여주고, Fig. 3~A5는 각 벤치마크의 데이터 스케일에 따른 성능 추이를 제시한다.

기술 상세

아키텍처: SigLIP 2 비전 인코더 + LLM(Qwen3-8B) 파이프라인에 intra-ViT D를 Layer k=6에 삽입. D는 Window Attn(2×2)으로 지역 컨텍스트를 확장하고, PixelUnshuffle로 2×2 윈도우를 재구성한 뒤 MLP로 차원 d로 축소. LN2는 Concatenated 4d 피처에 적용하고, 잔차는 평균 풀링으로 구현한다. 후속으로 4× Downsampling의 post-ViT MLP가 토큰 수를 추가로 감소시켜 최종 LLM 입력 토큰 수를 1/16N 수준으로 만든다. 파라미터 재사용 Initialization으로 D의 윈도우 어텐션 가중치, FFN 가중치 등을 앞 ViTLayer의 가중치로 복사하여 pretrained manifold를 보존한다. k=6에서 가장 좋은 효율-정확도 트레이드오프를 보이며, 16× 압축에서 평균 70.7의 벤치마크 성능을 기록한다. 학습은 네 단계(비전-언어 정렬, OCR/문서 데이터 주입, 다중 이미지/롱 컨텍스트 학습, 지도형 instruction tuning)로 구성된다. 한정된 고정 압축률을 사용하나, 향후 콘텐츠 기반 동적 토큰 감소를 통해 추가 개선 가능하다.

한계점

open-questions: Intra-ViT D의 고정된 공간 밀도와 고정 압축률은 콘텐츠 밀도에 따라 비효율적일 수 있다. k=6의 최적화는 SigLIP 2 백본에 특화되어 있으며, 다른 백본이나 더 깊은 네트워크로 확장 시 재평가 필요하다. Slice-based encoding은 슬라이스 경계를 넘어선 전역 컨텍스트를 보완하는 thumbnail의 역할에 의존하며, 이미지의 다면적 맥락을 완전하게 포섭하는 데 한계가 있다.

실무 활용

고해상도 입력이 필요한 멀티모달 LLM 환경에서 시각 인코딩의 계산 비용을 대폭 줄이면서도 정확도를 유지하는 실용적 패턴을 제공한다. SigLIP 2 백본과 Qwen3 기반의 파이프라인에 쉽게 적용 가능하다.

OCR이 포함된 고해상도 문서 이해 및 차트 인식 시스템의 실시간 응답성 향상
고해상도 이미지가 포함된 VQA 시스템의 추론 속도 증가
다중 뷰 또는 페이지 단위의 문서 인식에서 메모리 및 계산 자원 절감
모바일/엣지 디바이스에서 UHD 이미지가 포함된 멀티모달 서비스의 런타임 효율화

코드 공개 여부: 공개

코드 저장소 보기

키워드

slice-based encoding (슬라이스 기반 인코딩)intra-ViT compression (Intra-ViT 초기 압축)visual encoding FLOPs (비주얼 인코딩 FLOPs)high-resolution inputs (고해상도 입력)token reduction (토큰 감소)ViT backbone (ViT 백본)OCR/ VQA benchmarks (OCR/ VQA 벤치마크)