구글, 첫 번째 멀티모달 임베딩 모델 Gemini Embedding 2 출시

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

구글이 텍스트, 이미지, 비디오, 오디오 및 문서를 단일 공유 벡터 공간으로 매핑하는 최초의 멀티모달 임베딩 모델인 Gemini Embedding 2를 출시했다. 기존에는 각 입력 유형마다 별도의 파이프라인이 필요했으나, 이 모델을 통해 통합된 교차 모달 검색이 가능해졌다. 텍스트 8,192 토큰, 비디오 120초, 오디오 원시 데이터 등을 지원하며 Matryoshka 표현 학습을 통해 차원 축소가 용이하다. 현재 LangChain, LlamaIndex 등 주요 프레임워크와 벡터 DB에서 즉시 사용 가능하다.

배경

임베딩(Embedding)의 기본 개념, 벡터 데이터베이스 활용 경험, RAG(검색 증강 생성) 아키텍처 이해

대상 독자

멀티모달 RAG 시스템을 구축하거나 대규모 미디어 검색 엔진을 개발하는 엔지니어

의미 / 영향

기존에 파편화되어 있던 멀티모달 데이터 처리 파이프라인을 하나로 통합함으로써 개발 복잡도를 획기적으로 낮출 것이다. 특히 OpenAI나 Cohere와 같은 경쟁사들에게 통합 멀티모달 임베딩 모델 개발에 대한 강력한 압박으로 작용할 전망이다.

섹션별 상세

Gemini Embedding 2는 텍스트, 이미지, 비디오, 오디오, 문서를 하나의 공통 벡터 공간으로 매핑하여 서로 다른 모달리티 간의 검색을 단일 파이프라인으로 처리한다.

입력 사양으로 텍스트는 최대 8,192 토큰, 비디오는 120초, 요청당 이미지는 6개까지 지원하며 오디오는 별도의 전사 과정 없이 원시 데이터를 직접 처리한다.

Matryoshka 표현 학습(Matryoshka Representation Learning) 기법을 적용하여 3,072차원의 출력을 재학습 없이 128차원까지 줄일 수 있어 저장 공간과 지연 시간을 최적화한다.

100개 이상의 언어를 지원하며 LangChain, LlamaIndex와 같은 개발 도구는 물론 Weaviate, Qdrant, ChromaDB 등 주요 벡터 데이터베이스와 이미 통합되어 있다.

실무 Takeaway

멀티모달 RAG 시스템 구축 시 각 모달리티별로 별도의 임베딩 모델을 운영할 필요 없이 Gemini Embedding 2 하나로 통합하여 아키텍처를 단순화할 수 있다.
Matryoshka 표현 학습을 활용하면 검색 품질과 인프라 비용 사이의 균형에 맞춰 임베딩 차원을 128차원까지 유연하게 조정하여 운영 효율을 높일 수 있다.
비디오와 오디오를 텍스트 변환 없이 직접 임베딩하므로 데이터 전처리 단계를 줄이고 정보 손실을 최소화한 검색 시스템 구현이 가능하다.

언급된 리소스

문서Google Ships Its First Multimodal Embedding Model