Google DeepMind, 노트북용 멀티모달 모델 'Gemma 4 12B' 공개

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

Google DeepMind가 노트북 환경에서 고성능 멀티모달 추론을 지원하는 Gemma 4 12B를 발표했다. 이 모델은 별도의 인코더를 제거하고 시각 및 오디오 입력을 LLM 백본에 직접 통합하는 인코더 프리 아키텍처를 채택했다. 16GB VRAM 환경에서 구동 가능하며, 26B MoE 모델에 근접하는 추론 성능을 제공한다. Multi-Token Prediction(MTP) 드래프터를 포함해 추론 지연 시간을 줄였다.

배경

16GB VRAM, Python, Hugging Face Transformers

대상 독자

로컬 환경에서 멀티모달 모델을 구동하려는 개발자

의미 / 영향

Gemma 4 12B는 고성능 멀티모달 AI를 로컬 노트북 환경으로 가져옴으로써, 클라우드 의존도를 낮추고 개인화된 에이전트 개발을 가속화할 것이다. 특히 인코더 프리 아키텍처는 향후 경량 멀티모달 모델 설계의 효율성을 높이는 중요한 이정표가 될 것으로 보인다.

섹션별 상세

Gemma 4 12B는 별도의 인코더 없이 시각 및 오디오 입력을 처리하는 통합 아키텍처를 도입했다.

시각 입력은 단일 행렬 곱셈과 정규화 모듈을 통해, 오디오 입력은 raw 신호를 텍스트 토큰과 동일한 차원으로 투영하여 LLM 백본이 직접 처리한다.

16GB VRAM 또는 통합 메모리 환경에서 구동 가능하며, 26B MoE 모델에 준하는 추론 성능을 발휘한다.

Multi-Token Prediction(MTP) 드래프터를 기본 탑재하여 추론 시 지연 시간을 효과적으로 감소시켰다.

Apache 2.0 라이선스로 배포되며, Hugging Face, Kaggle, vLLM, llama.cpp 등 다양한 개발 생태계를 지원한다.