핵심 요약
텐센트가 텍스트 LLM을 비전 인코더로 활용하고 비디오 토큰 압축 기술을 적용하여 효율성을 극대화한 소형 시각-언어 모델 PenguinVL을 발표했다.
배경
텐센트 연구진이 기존 CLIP 기반 비전 인코더의 한계를 극복하고 텍스트 전용 LLM을 시각 정보 처리에 직접 활용하는 새로운 아키텍처의 VLM인 PenguinVL을 허깅페이스에 공개했다.
커뮤니티 반응
사용자들은 텍스트 LLM을 비전 인코더로 사용하는 독특한 접근 방식에 관심을 보이며 특히 소형 모델에서의 효율성에 주목하고 있다.
실용적 조언
- 로컬 환경에서 고성능 비전-언어 작업이 필요한 경우 Penguin-VL-8B 모델 사용을 고려할 수 있다.
- 긴 비디오 분석 작업 시 TRA 전략이 적용된 모델을 활용하여 메모리 사용량을 최적화할 수 있다.
언급된 도구
효율적인 시각-언어 이해 및 비디오 추론
Qwen3중립
비전 인코더 및 언어 백본의 기초 모델
섹션별 상세
PenguinVL은 기존 VLM들이 주로 사용하는 CLIP이나 SigLIP 같은 대조 학습(Contrastive Learning) 기반 비전 인코더 대신 텍스트 전용 LLM인 Qwen3-0.6B를 비전 인코더로 개조하여 사용한다. 이를 위해 양방향 어텐션(Bidirectional Attention)과 2D-RoPE를 도입하여 공간적 모델링 능력을 부여했으며 이는 언어 모델 백본과의 정렬을 더욱 긴밀하게 만든다. 이러한 설계는 텍스트 모델이 가진 강력한 시각적 사전 지식을 활용할 수 있게 하며 기존 방식의 목적 함수 불일치 문제를 해결한다.
비디오 이해 성능을 높이기 위해 시간적 중복성 인식(Temporal Redundancy-Aware, TRA) 토큰 압축 전략을 도입했다. 이 기술은 프레임 간 중복되는 정보를 식별하여 토큰 예산을 동적으로 할당함으로써 제한된 컨텍스트 윈도우 내에서도 긴 비디오에 대한 추론을 효율적으로 수행할 수 있게 한다. 이를 통해 연산 자원을 절약하면서도 비디오의 핵심 문맥을 놓치지 않는 정교한 추론이 가능하다.
모델 아키텍처는 LLM으로 초기화된 비전 인코더, 경량 MLP 프로젝터, 그리고 Qwen3 언어 백본으로 구성된 통합 구조를 가진다. 8B 및 2B 규모로 제공되는 이 모델은 이미지, 문서, OCR, 수학 및 비디오 벤치마크에서 경쟁력 있는 성능을 보여주며 로컬 환경 배포에 최적화되어 있다. 특히 소형 모델임에도 불구하고 대규모 모델에 필적하는 시각적 이해력을 갖춘 것이 특징이다.
이미지 분석

비전 인코더가 텍스트 LLM에서 파생되어 MLP 프로젝터를 통해 언어 모델 백본과 연결되는 과정을 시각화한다. 텍스트 LLM을 시각 정보 처리에 활용하는 통합 구조의 설계를 명확히 보여준다.
PenguinVL의 전체적인 모델 아키텍처 다이어그램이다.

비디오 프레임 간의 유사성을 분석하여 중요한 토큰만을 선택적으로 유지하는 방식을 나타낸다. 이를 통해 긴 비디오 데이터를 처리할 때 발생하는 토큰 폭증 문제를 해결하는 기술적 근거를 제시한다.
시간적 중복성 인식(TRA) 토큰 압축 메커니즘의 상세 구조이다.
실무 Takeaway
- 텍스트 LLM을 비전 인코더로 활용하여 언어 모델과의 의미론적 일관성을 확보했다.
- TRA 전략을 통해 긴 비디오 데이터 처리 시 토큰 효율성을 획기적으로 개선했다.
- 8B 이하의 소형 모델임에도 불구하고 OCR 및 수학 등 복잡한 시각 작업에서 우수한 벤치마크 결과를 기록했다.
언급된 리소스
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료