Penguin-VL: LLM 기반 비전 인코더를 활용한 시각 언어 모델의 효율성 한계 탐색

왜 중요한가

기존 VLM이 거대한 CLIP 기반 인코더에 의존하던 관행을 깨고, 텍스트 전용 LLM을 비전 인코더로 재활용하여 더 정밀한 시각적 이해와 데이터 효율성을 달성했다. 이는 자원이 제한된 모바일이나 에지 기기에서도 고성능 멀티모달 모델을 구현할 수 있는 새로운 경로를 제시한다.

핵심 기여

LLM 기반 비전 인코더 Penguin-Encoder 제안

텍스트 전용 LLM(Qwen3-0.6B)을 비전 인코더로 직접 변환하여 기존 대조 학습 기반 인코더보다 정밀한 시각적 특징 추출과 언어 모델과의 강력한 정렬 성능을 확보했다.

시간적 중복성 인식(TRA) 토큰 압축 기법 도입

비디오 프레임 간의 유사도를 분석하여 중요 프레임(Key frame)에는 더 많은 토큰을, 배경 프레임에는 적은 토큰을 동적으로 할당하는 4단계 압축 전략을 통해 연산 효율성을 높였다.

고품질 멀티모달 데이터 큐레이션 파이프라인 구축

5,700만 개의 이미지와 370만 개의 비디오 데이터를 계층적 클러스터링과 상세 캡셔닝을 통해 정제하여 학습 효율과 모델의 시각적 지식 수준을 극대화했다.

컴팩트한 크기에서의 SOTA급 성능 달성

2B 및 8B 규모의 경량 모델임에도 불구하고 문서 이해, 수학적 추론, 비디오 분석 등 다양한 벤치마크에서 대규모 모델인 Qwen3-VL 등에 필적하거나 능가하는 결과를 보였다.

핵심 아이디어 이해하기

기존 VLM은 주로 CLIP과 같은 대조 학습(Contrastive Learning) 기반 비전 인코더를 사용한다. 대조 학습은 이미지와 텍스트를 하나의 벡터 공간에 매핑하는 데 탁월하지만, 전역적인 특징(Global features)에 집중하느라 세부적인 시각 정보(Fine-grained cues)를 손실하는 경향이 있다. 이는 문서 이해나 복잡한 추론 작업에서 한계로 작용한다.

Penguin-VL은 이 문제를 해결하기 위해 이미 풍부한 지식과 추론 능력을 갖춘 텍스트 전용 LLM을 비전 인코더의 시작점으로 삼는다. LLM의 인과적(Causal) 어텐션을 양방향(Bidirectional)으로 수정하고 2D-RoPE를 추가하여 시각적 패치를 처리할 수 있게 개조한다. 이를 통해 언어 모델이 가진 의미론적 사전 지식(Semantic Priors)을 시각 정보 추출에 직접 활용한다.

결과적으로 모델은 별도의 거대한 비전 전용 사전 학습 없이도 언어 모델과 시각 모델 간의 모달리티 격차를 최소화한다. 이는 적은 파라미터로도 대규모 모델에 필적하는 성능을 내며, 특히 비디오의 시간적 흐름을 이해하는 능력이 크게 향상되는 효과를 가져온다.

방법론

아키텍처는 LLM 기반 비전 인코더, MLP 프로젝터, 그리고 백본 LLM의 3단계 구조로 구성된다. 비전 인코더는 Qwen3-0.6B를 기반으로 하며, 인과적 마스킹을 제거한 양방향 어텐션을 적용하여 시각 패치 간의 대칭적 상호작용을 가능하게 한다.

학습은 3단계로 진행된다. 1단계에서는 교사 모델의 특징을 복원하는 증류 손실(Distillation Loss)을 사용해 인코더를 초기화한다. 이때 진폭(Amplitude), 방향(Direction), 관계(Relation) 손실을 결합하여 특징 분포를 정렬한다. [입력 패치 → 양방향 어텐션 연산 → 특징 벡터 Fs 생성 → 교사 모델 특징 Ft와의 차이 계산 → 시각적 세부 정보 보존] 순으로 작동한다.

비디오 처리를 위해 TRA(Temporal Redundancy-Aware) 전략을 사용한다. 프레임 간 유사도를 계산하여 [프레임 시퀀스 입력 → 유사도 기반 키/중간 프레임 분류 → 전체 토큰 예산 내 동적 할당 → 압축된 시각 토큰 출력] 과정을 거친다. 이는 정보 손실을 최소화하면서 연산량을 줄인다.

데이터 구축 단계에서는 계층적 K-means 클러스터링을 통해 5,700만 개의 이미지 데이터를 정제했다. [전체 데이터셋 → CLIP 임베딩 추출 → 계층적 군집화 → 군집 내 최대 거리 샘플 선택 → 데이터 다양성 확보] 메커니즘을 통해 중복을 제거하고 학습 효율을 높였다.

주요 결과

Penguin-VL 2B 모델은 InfoVQA(77.8), ChartQA(86.6), DocVQA(94.1) 등 문서 및 차트 이해 벤치마크에서 Qwen3-VL 2B 및 InternVL3.5 2B를 능가하는 성능을 기록했다. 특히 고해상도 세부 인식이 필요한 V-star(83.8)에서 기존 모델 대비 압도적인 정밀도를 입증했다.

비디오 벤치마크에서도 NextQA(79.9), Perception Test(70.4) 등에서 SOTA급 성능을 보였다. 이는 TRA 기법이 시간적 흐름과 세부 동작을 효과적으로 포착하고 있음을 의미한다. 8B 모델의 경우 DocVQA 96.2, ChartQA 90.5를 달성하며 GPT-5 nano 등 폐쇄형 모델과 대등하거나 우수한 결과를 보였다.

Ablation 연구 결과, LLM 가중치로 인코더를 초기화하는 것이 랜덤 초기화 대비 평균 점수를 3.3점 이상 향상시킴이 확인됐다. 또한 관계 손실(Relation Loss)을 추가했을 때 구조적 정밀도가 개선되어 전체적인 멀티모달 추론 성능이 강화되었다.

실무 활용

저사양 기기에서도 고성능 시각 추론이 가능하므로 모바일 앱이나 로봇 제어 시스템에 즉시 통합할 수 있다. 특히 문서 OCR 및 복잡한 비디오 분석이 필요한 실무 환경에 최적화되어 있다.

스마트폰에서의 실시간 고정밀 문서 스캔 및 데이터 추출
에지 디바이스 기반의 지능형 보안 카메라 영상 분석 및 이벤트 감지
로봇의 1인칭 시점(Ego-video) 상황 인지 및 실시간 행동 계획 수립
복잡한 차트와 그래프를 포함한 금융 및 기술 보고서 자동 분석

기술 상세

비전 인코더 아키텍처는 Qwen3-0.6B의 트랜스포머 블록을 재사용하며, 2D Rotary Positional Embedding(2D-RoPE)을 도입하여 가변 해상도 입력을 지원한다. QK Normalization을 통해 학습 안정성을 확보했으며, 인과적 마스크를 제거하여 시각 토큰 간의 전방향 정보 교환이 가능하도록 설계했다.

특징 복원을 위한 관계 손실(Relation Loss)은 토큰 간의 자기 상관(Self-correlation) 유사도를 감독한다. [FsFsᵀ / ||Fs||₂² → 행렬 연산 → 토큰 간 관계 맵 생성 → 교사 모델의 관계 맵과 비교 → 구조적 정밀도 향상] 과정을 통해 개별 토큰의 속성보다 패치 간의 구조적 맥락을 학습한다.

비디오 압축을 위한 TRA 전략은 4단계 정책을 따른다. 1단계는 원본 해상도 유지, 2단계는 동기화된 다운스케일링, 3단계는 중간 프레임의 최소 해상도 고정 및 키 프레임 집중 압축 순으로 진행된다. 이를 통해 빠른 움직임이 있는 장면의 세부 정보를 보존하면서도 전체 토큰 예산을 준수한다.

학습 파이프라인은 저해상도 초기화(2048 토큰), 고해상도 미세 조정(10240 토큰), 그리고 최종 SFT 단계로 나뉜다. SFT 단계에서는 이미지 3,900만 개, 비디오 370만 개의 방대한 혼합 데이터를 사용하여 멀티모달 정렬을 완성했다. 특히 비디오 데이터는 광학 흐름(Optical Flow) 기반의 모션 스코어를 측정하여 정적인 클립을 제거하고 동적인 장면 위주로 구성했다.

한계점

비교적 제한된 수학 중심 SFT 데이터로 인해 LogicVista 등 일부 추상적 논리 추론 벤치마크에서는 InternVL3.5 등 특정 모델에 비해 다소 낮은 점수를 기록했다.

키워드

VLM(시각 언어 모델)Penguin-VL(펭귄-VL)LLM-based Vision Encoder(LLM 기반 비전 인코더)TRA(시간적 중복성 인식 압축)Multimodal Understanding(멀티모달 이해)