TL;DR
고해상도 입력에서 비전 인코더의 Self-Attention은 토큰 수 제곱에 비례하는 계산 비용을 유발한다. SE(Slice-based Encoding)는 로컬 패치를 독립적으로 인코딩하여 지역 세부 정보를 보존하면서 전체 대역의 연산을 줄인다. 또한 intra-ViT 초기 압축 D를 도입해 ViT의 앞 단계에서 토큰을 미리 감소시키면 이후 계층의 FLOPs가 크게 감소하고,OCR/문서 이해/일반 VQA 벤치마크에서 성능 저하 없이 효율성을 크게 높일 수 있다.
왜 중요한가
고해상도 입력에서 비전 인코더의 Self-Attention은 토큰 수 제곱에 비례하는 계산 비용을 유발한다. SE(Slice-based Encoding)는 로컬 패치를 독립적으로 인코딩하여 지역 세부 정보를 보존하면서 전체 대역의 연산을 줄인다. 또한 intra-ViT 초기 압축 D를 도입해 ViT의 앞 단계에서 토큰을 미리 감소시키면 이후 계층의 FLOPs가 크게 감소하고,OCR/문서 이해/일반 VQA 벤치마크에서 성능 저하 없이 효율성을 크게 높일 수 있다.
핵심 기여
Slice-based encoding의 우수성 증명
GE와 비교한 SE의 벤치마크 성능은 평균적으로 SE가 더 좋거나 동일하며, 데이터 규모가 커질수록 SE의 우위가 커진다. OCR 집중 태스크에서 SE가 더 큰 이점을 보이며, MoonViT 백본에서도 SE의 효과가 지속된다.
intra-ViT 초기 압축 도입
ViT의 얕은 계층에 window-attention downsampling 모듈 D를 삽입하고, 2×2 윈도우에서의 정보 융합 후 4× 축소를 수행한다. 파라미터 재사용 초기화로 pretrained ViT의 표현 맵에 가깝게 시작한다.
두 단계 토큰 압축으로 총 16× 감소 달성
D와 이후 post-ViT MLP 압축기로 원시 비주얼 패치를 LLM 입력으로 전달하기 전 16×(4×4) 축소를 달성한다. 이로써 비주얼 인코딩 FLOPs를 55.75% 감소시키고 downstream 정확도 손실은 거의 없다.
다양한 벤치마크에서 유효성 확인
OCRBench, MMBench(EN/ CN), MathVista, HallusionBench, MMMU 등 8개 벤치마크에서 Post-ViT Baseline과의 차이가 작았고, 평균 차이는 −0.29 포인트에 그쳤다.
핵심 아이디어 이해하기
출발점: 고해상도 이미지는 ViT 내부에서 토큰 수 증가로 인해 계산 비용이 급증한다. 기존의 글로벌 인코딩은 전체 영상에 대해 한 번에 self-attention을 적용하므로 토큰 예산이 소진될 때까지 비용이 급증한다. 제안은 두 축으로 작동한다. 첫째, slice-based encoding(SE)은 이미지의 로컬 뷰를 분리하여 각 뷰에서 정보에 집중하도록 한다. 둘째, intra-ViT D 모듈은 ViT의 얕은 계층에 삽입되어 토큰 수를 조기에 감소시키고, 이후 ViT 계층은 더 적은 토큰으로 동작한다. 이로써 ViT 내부의 연산이 크게 감소하고, 후속 MLP 기반 압축기로 남은 정보를 효과적으로 정리한다. 이 구성은 16× 토큰 감소를 달성하면서도 downstream에서 평균적으로 ±0.8 포인트의 정확도 차이를 보이며, 8개 벤치마크에서 안정적인 성능을 유지한다.
방법론
- 전체 접근: 슬라이스 기반 인코딩(SE) + 내재형 압축 모듈 D를 ViT 내부에 삽입하고, 후에 MLP 압축기로 최종 LLM 입력 토큰 수를 줄이는 2단계 압축 체계이다. 2) intra-ViT 압축 모듈 D의 구성: window-attention 2×2를 이용해 인접 토큰 간 지역 컨텍스트를 확장하고, 2×2 Patch들을 PixelUnshuffle로 변환한 후 MLP로 채널을 융합해 d 차원으로 축소한다. 3) 파라미터 재사용 Initialization: D의 윈도우 어텐션의 가중치, FFN의 가중치 등을 바로 앞 ViTLayer의 가중치로 재활용하여 pretrained 표현 망을 파괴하지 않도록 한다. 4) 삽입 위치와 규격: k=6 위치에 삽입하고 4× 축소를 수행하며, 이후 ViT의 나머지 계층은 축소된 토큰으로 연산한다. 5) 학습 및 데이터: 네 단계 학습(Fusion)으로 비전-언어 정렬, OCR/문서 데이터 주입, 다중 이미지 연합 학습, 지도형 instruction tuning을 수행한다. 6) 평가: 8개 벤치마크에서 Post-ViT Baseline과 동일한 최종 토큰 수(16×)로 비교하며, 4M–64M 데이터 규모에서 벤치마크별 성능과 FLOPs를 측정한다.
관련 Figure

설계 개요를 시각화하여 SE와 intra-ViT 구조의 결합으로 ViT 내부 계산이 줄어드는 흐름을 직관적으로 보여준다.
Figure 1: (a) Previous Works의 Global Encoding과 (b) Slice-based Encoding, (c) Structure of Compressor.
주요 결과
주요 결과는 아래와 같다. intra-ViT 초기 압축은 정확도에서 Post-ViT Baseline에 근접하게 유지하면서 시각 인코딩 비용을 대폭 줄였다. 16× 압축 비율에서 비주얼 인코딩 FLOPs는 3555.1G에서 1573.1G로 감소해 55.75%의 감소를 보였다. 4M에서 64M까지의 다양한 학습 데이터 규모에서 평균 성능은 ±0.8 포인트 이내로 유지되었고, 평균 편차는 −0.29 포인트였다. Ablation 연구에서는 Window-Attention + Reused MLP 구성이 최적으로, 8M 데이터 규모에서 평균 점수 70.7을 달성했고, 16M에서 73.1, 32M에서 74.2, 64M에서 75.6으로 증가했다. 삽입 깊이(k) 변화에 대한 분석은 k=6이 Pareto 최적이며, k=3은 FLOPs가 크게 감소하지만 평균 점수가 39.7로 급락했고, k=9/15는 FLOPs 증가에도 불구하고 성능이 미미하게 늘어나지 않았다. Fig. 2는 평균 정확도와 비용의 트레이드오프를 보여주고, Fig. 3~A5는 각 벤치마크의 데이터 스케일에 따른 성능 추이를 제시한다.
관련 Figure

SE가 GE 대비 평균 성능 우위를 보이고, FLOPs 절감과 성능 사이의 트레이드오프를 시각적으로 확인할 수 있다.
Figure 2: Avg performance and computational cost. Left: Avg Score; Right: FLOPs.

학습 데이터 규모에 따른 벤치마크별 성능 추이를 시각화하여 데이터 증가에 따른 성능 향상을 보여준다.
Figure 3: Benchmark trends across training data scales (8 benchmarks).

다양한 벤치마크에서 Post-ViT와 Our 방법의 상대 성능 차이를 보여주며, 데이터 스케일에 따른 변화 양상을 확인할 수 있다.
Figure 4: Individual benchmark comparisons (AI2D, MMB_EN, MMB_CN, MathVista).

추가 벤치마크에 대한 성능 추이를 제시해, 제안 방식의 일반화 가능성을 시사한다.
Figure 5: Additional benchmark trends (MMStar, OCRBench, HallBench, MMMU).

OCR 중심 벤치마크에서 SE의 지역성 인덕티브 바이어스가 강하게 작동함을 시사한다.
Figure 6: OCRBench, HallBench의 세부 벤치마크 비교 그래프.

다양한 영역의 멀티모달 이해 평가에서, 제안 방식이 데이터 증가에 따라 지속적으로 성능을 끌어올리는 것을 보여준다.
Figure 7: MMMU 벤치마크 및 데이터 스케일별 성능 비교.
기술 상세
아키텍처: SigLIP 2 비전 인코더 + LLM(Qwen3-8B) 파이프라인에 intra-ViT D를 Layer k=6에 삽입. D는 Window Attn(2×2)으로 지역 컨텍스트를 확장하고, PixelUnshuffle로 2×2 윈도우를 재구성한 뒤 MLP로 차원 d로 축소. LN2는 Concatenated 4d 피처에 적용하고, 잔차는 평균 풀링으로 구현한다. 후속으로 4× Downsampling의 post-ViT MLP가 토큰 수를 추가로 감소시켜 최종 LLM 입력 토큰 수를 1/16N 수준으로 만든다. 파라미터 재사용 Initialization으로 D의 윈도우 어텐션 가중치, FFN 가중치 등을 앞 ViTLayer의 가중치로 복사하여 pretrained manifold를 보존한다. k=6에서 가장 좋은 효율-정확도 트레이드오프를 보이며, 16× 압축에서 평균 70.7의 벤치마크 성능을 기록한다. 학습은 네 단계(비전-언어 정렬, OCR/문서 데이터 주입, 다중 이미지/롱 컨텍스트 학습, 지도형 instruction tuning)로 구성된다. 한정된 고정 압축률을 사용하나, 향후 콘텐츠 기반 동적 토큰 감소를 통해 추가 개선 가능하다.
한계점
open-questions: Intra-ViT D의 고정된 공간 밀도와 고정 압축률은 콘텐츠 밀도에 따라 비효율적일 수 있다. k=6의 최적화는 SigLIP 2 백본에 특화되어 있으며, 다른 백본이나 더 깊은 네트워크로 확장 시 재평가 필요하다. Slice-based encoding은 슬라이스 경계를 넘어선 전역 컨텍스트를 보완하는 thumbnail의 역할에 의존하며, 이미지의 다면적 맥락을 완전하게 포섭하는 데 한계가 있다.
실무 활용
고해상도 입력이 필요한 멀티모달 LLM 환경에서 시각 인코딩의 계산 비용을 대폭 줄이면서도 정확도를 유지하는 실용적 패턴을 제공한다. SigLIP 2 백본과 Qwen3 기반의 파이프라인에 쉽게 적용 가능하다.
- OCR이 포함된 고해상도 문서 이해 및 차트 인식 시스템의 실시간 응답성 향상
- 고해상도 이미지가 포함된 VQA 시스템의 추론 속도 증가
- 다중 뷰 또는 페이지 단위의 문서 인식에서 메모리 및 계산 자원 절감
- 모바일/엣지 디바이스에서 UHD 이미지가 포함된 멀티모달 서비스의 런타임 효율화
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.