Let ViT Speak: 생성형 언어-이미지 사전 학습

기존의 복잡한 이중 구조 대신 단일 Transformer가 이미지와 텍스트를 동시에 처리하는 미니멀리즘 설계를 제안한다. 80억 개의 샘플 학습만으로도 훨씬 더 많은 데이터를 사용한 기존 모델들을 능가하며, 특히 문서 이해와 OCR 분야에서 탁월한 효율성을 입증했다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

GenLIP 프레임워크 제안

추가적인 텍스트 디코더나 대조 학습 없이 단일 Vision Transformer(ViT)가 시각적 토큰으로부터 직접 언어 토큰을 예측하도록 설계된 미니멀리스트 사전 학습 프레임워크이다.

Gated Attention 메커니즘 도입

멀티모달 학습 중 발생하는 Attention Sink 현상을 억제하기 위해 입력 의존형 게이트를 도입하여 시각적 특징의 공간적 다양성을 보존하고 학습 수렴 속도를 개선했다.

네이티브 종횡비 적응 학습

고정 해상도 학습 후 이미지의 원래 가로세로 비율을 유지하며 학습하는 2단계 전략을 통해 OCR 및 차트 이해와 같은 세부 정보 민감 작업 성능을 극대화했다.

관련 Figure

#1Diagram
GenLIP이 별도의 텍스트 디코더나 복잡한 손실 함수 없이 단일 모델로 이미지와 텍스트를 통합 처리하는 미니멀리즘 구조임을 보여준다. 이는 아키텍처의 단순화가 효율적인 멀티모달 학습으로 이어짐을 시각화한다.
기존의 대조 학습(CLIP) 및 인코더-디코더 방식과 GenLIP의 단일 타워 구조를 비교한 다이어그램이다.

핵심 아이디어 이해하기

기존의 멀티모달 모델은 이미지를 해석하는 눈(Vision Encoder)과 글을 쓰는 입(Text Decoder)을 따로 두어 학습시키는 방식이었다. 이 방식은 두 구성 요소 사이의 정보를 전달하는 과정에서 손실이 발생하거나 구조가 복잡해지는 한계가 있다. GenLIP은 ViT라는 시각 모델이 별도의 통역사 없이 직접 언어 토큰을 생성하도록 만들어 이 간극을 없앴다.

이 과정에서 발생하는 핵심 문제는 '어텐션 싱크' 현상이다. Transformer의 Softmax 연산은 모든 토큰의 중요도 합을 1로 맞춰야 하는데, 모델이 학습을 편하게 하기 위해 정보가 없는 첫 번째 토큰에 중요도를 몰아주는 일종의 편법을 쓰는 것이다. 이렇게 되면 이미지의 구석구석을 살펴봐야 할 모델이 특정 지점만 보게 되어 시각적 이해도가 떨어진다.

GenLIP은 이를 해결하기 위해 Gated Attention을 도입했다. 이는 각 토큰이 정보를 받아들일 때 문을 얼마나 열지 결정하는 필터를 다는 것과 같다. 특정 토큰에 정보가 과하게 쏠리는 것을 물리적으로 제어함으로써, 모델이 이미지 전체의 공간적 정보를 골고루 학습하도록 강제한다. 결과적으로 더 적은 데이터로도 이미지 속 글자나 복잡한 구조를 더 정확하게 읽어낼 수 있게 된다.

방법론

GenLIP은 단일 Transformer 아키텍처를 기반으로 하며, 이미지 패치 임베딩과 텍스트 토큰 임베딩을 하나의 시퀀스로 결합하여 입력한다. [v0, ..., vM, t0, ..., tL] 형태로 구성된 시퀀스에서 이미지 토큰은 Prefix 역할을 수행하며, 모델은 이전의 모든 시각/언어 토큰을 조건으로 다음 텍스트 토큰을 예측하는 표준 autoregressive 언어 모델링 목적 함수를 사용한다.

수학적으로는 Gated Attention을 통해 정보 흐름을 조절한다. 입력 상태 X에 대해 표준 어텐션 출력 A = Attn(X)를 계산한 후, G = σ(XWg + bg)라는 게이트 값을 구한다. 여기서 시그모이드 함수 σ는 0에서 1 사이의 값을 출력하며, 최종 출력은 A_tilde = G ⊙ A로 계산된다. [입력 X → 가중치 Wg 연산 및 시그모이드 적용 → 게이트 G 생성 → 어텐션 결과 A와 요소별 곱셈 → 정보가 제어된 출력 의미] 과정을 거쳐 특정 토큰으로의 어텐션 집중을 방지한다.

또한 Prefix-LM Attention 메커니즘을 적용하여 이미지 토큰 간에는 양방향(bidirectional) 어텐션을 허용하고, 텍스트 토큰은 이전 토큰들만 참조하는 인과적(causal) 어텐션을 수행한다. 위치 정보 보존을 위해 2차원 구조를 반영하는 Multimodal Rotary Position Encoding(MRoPE)을 사용하여 다양한 해상도에 대응한다.

관련 Figure

#2Diagram
이미지 토큰이 텍스트 생성의 접두사(Prefix)로 작용하며, Gated Attention이 정보 흐름을 제어하는 구체적인 메커니즘을 설명한다. MRoPE를 통한 위치 정보 주입 방식도 함께 나타나 있다.
GenLIP의 상세 아키텍처와 Gated Attention 레이어, Prefix-LM Attention 메커니즘을 설명하는 도식이다.

주요 결과

GenLIP-g(1.1B 파라미터) 모델은 8B 개의 샘플로 학습되었음에도 불구하고, 40B 개의 샘플로 학습된 SigLIP2 등 강력한 베이스라인을 능가했다. 특히 Doc&OCR 벤치마크에서 두드러진 성과를 보였는데, Qwen2.5-1.5B를 백본으로 사용했을 때 SigLIP2 대비 평균 5.9점 높은 점수를 기록했다. ChartQA에서는 45.0, OCRBench에서는 55.6을 달성하며 세밀한 텍스트 인식 능력을 입증했다.

Ablation Study 결과, Gated Attention(GA) 유무에 따른 성능 차이가 명확했다. GA를 적용하지 않았을 때 첫 번째 토큰의 어텐션 점수 평균은 28.7이었으나, 적용 후 6.0으로 낮아지며 정보 쏠림 현상이 해결되었다. 이는 ImageNet-1K 선형 분류 성능에서 약 9%의 정확도 향상으로 이어져 시각적 표현의 품질이 개선되었음을 보여주었다.

2단계 학습인 네이티브 종횡비 적응(Native-Aspect-Ratio Adaptation)을 거친 후, OCR 관련 지표가 일관되게 상승했다. 고정 해상도(224x224)에서 학습된 모델보다 가변 해상도에 적응한 모델이 실제 문서 이미지 처리에서 훨씬 더 높은 정확도를 보였다.

관련 Figure

#3Chart
Gated Attention을 적용했을 때(w GA) 첫 번째 토큰으로의 비정상적인 어텐션 쏠림(Attention Sink)이 현저히 감소함을 수치로 증명한다. 이는 모델이 시각 정보를 더 고르게 활용하게 됨을 의미한다.
Gated Attention 적용 여부에 따른 레이어별 첫 번째 토큰의 어텐션 집중도를 비교한 그래프이다.

기술 상세

GenLIP의 아키텍처는 별도의 시각-언어 커넥터나 텍스트 디코더 없이 ViT 백본 자체가 언어 생성 능력을 갖추도록 통합되었다. 학습 시에는 Qwen3 토크나이저를 사용하며, 이미지 패치는 16x16 크기로 분할되어 선형 투영된다. 모델은 0.3B(L), 0.4B(So), 1.1B(g) 세 가지 규모로 제공되며, 각 모델은 레이어 수와 임베딩 차원을 달리하여 확장성을 검증했다.

핵심 기술적 차별점은 Gated Attention의 도입이다. 기존 ViT가 MLLM의 시각 인코더로 쓰일 때 발생하는 'Register' 토큰 현상(정보가 없는 토큰이 전역 정보를 흡수하는 현상)을 억제하기 위해, 입력 데이터에 기반한 동적 게이팅을 수행한다. 이는 모델이 특정 토큰을 '저장소'로 활용하려는 지름길 학습을 방지하고, 모든 시각 토큰이 고유한 공간 정보를 유지하도록 강제한다.

학습은 2단계로 진행된다. 1단계에서는 Recap-DataComp-1B 데이터셋에서 224x224 고정 해상도로 80억 개의 샘플을 학습하여 기초 시각-언어 정렬을 수행한다. 2단계에서는 Infinity-MM 및 BLIP3o 데이터셋을 사용하여 이미지의 원래 종횡비를 유지한 채 최대 1024개의 토큰 범위 내에서 미세 조정을 진행한다. 이때 Flex-attention을 사용하여 가변 길이 시퀀스를 효율적으로 처리한다.

한계점

검증 실험이 학술적 규모의 MLLM 설정(LLaVA-NeXT)에서 주로 수행되어 초대형 상용 모델에서의 일반화 성능은 추가 확인이 필요하다. 또한 10억 개 규모의 데이터셋으로 제한되어 더 큰 규모의 데이터에서의 스케일링 법칙은 아직 탐구되지 않았으며, 고품질 캡션 데이터에 대한 의존도가 높아 데이터 수집 비용이 발생할 수 있다.

실무 활용

GenLIP은 경량화된 구조로 높은 OCR 및 문서 이해 성능을 제공하므로, 모바일 기기나 엣지 환경에서 작동하는 멀티모달 에이전트의 시각 엔진으로 활용하기에 적합하다.

스마트폰 카메라를 이용한 실시간 영수증 및 문서 자동 인식 시스템
복잡한 차트와 그래프가 포함된 금융 보고서 자동 분석 에이전트
이미지 내 텍스트 정보를 기반으로 한 고정밀 이미지 검색 서비스

코드 공개 여부: 공개

코드 저장소 보기

키워드

ViT(비전 트랜스포머)MLLM(멀티모달 대형 언어 모델)OCR(광학 문자 인식)Attention Sink(어텐션 싱크)Generative Pre-training(생성형 사전 학습)

Let ViT Speak: 생성형 언어-이미지 사전 학습

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

GenLIP 프레임워크 제안

Gated Attention 메커니즘 도입

네이티브 종횡비 적응 학습

관련 Figure

핵심 아이디어 이해하기

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

한계점

실무 활용

스마트폰 카메라를 이용한 실시간 영수증 및 문서 자동 인식 시스템
복잡한 차트와 그래프가 포함된 금융 보고서 자동 분석 에이전트
이미지 내 텍스트 정보를 기반으로 한 고정밀 이미지 검색 서비스

코드 공개 여부: 공개

코드 저장소 보기

키워드

ViT(비전 트랜스포머)MLLM(멀티모달 대형 언어 모델)OCR(광학 문자 인식)Attention Sink(어텐션 싱크)Generative Pre-training(생성형 사전 학습)

Let ViT Speak: 생성형 언어-이미지 사전 학습

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

Let ViT Speak: 생성형 언어-이미지 사전 학습

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드