jina-embeddings-v5-omni: Locked Aligned Towers를 통한 Geometry-preserving Embeddings

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

다중 모달 검색과 RAG 파이프라인에서 텍스트 임베딩의 품질을 유지하면서 이미지, 비디오, 오디오를 같은 임베딩 공간으로 연결해야 한다. GELATO는 frozen 텍스트 인코더와 frozen 비텍스트 인코더를 유지하고, 작은 projector로 모달리티를 텍스트 공간에 정렬한다. 이로써 텍스트-기반 임베딩 성능을 유지하면서 비텍스트 입력도 효과적으로 검색 가능하도록 확장한다.

왜 중요한가

다중 모달 검색과 RAG 파이프라인에서 텍스트 임베딩의 품질을 유지하면서 이미지, 비디오, 오디오를 같은 임베딩 공간으로 연결해야 한다. GELATO는 frozen 텍스트 인코더와 frozen 비텍스트 인코더를 유지하고, 작은 projector로 모달리티를 텍스트 공간에 정렬한다. 이로써 텍스트-기반 임베딩 성능을 유지하면서 비텍스트 입력도 효과적으로 검색 가능하도록 확장한다.

핵심 기여

GELATO 설계 및 jina-embeddings-v5-omni 확장

독립적으로 사전 학습된 모달리티 인코더를 텍스트 임베딩 모델에 매핑하기 위해 작고 학습 가능한 projector를 도입하고, 텍스트 백본은 고정 상태를 유지하여 전체 파라미터 증가를 최소화한다.

오픈-웨이트 omni-스타일 모델 컬렉션 공개

jina-embeddings-v5-omni-nano(0.24B 기반)와 jina-embeddings-v5-omni-small(0.67B 기반) 및 8개의 태스크-특화 변형으로 구성된 모델 컬렉션을 공개한다.

벤치마크에서 경쟁력 있는 성능

텍스트/이미지/오디오/비디오를 포함하는 다중 모달 벤치마크에서 GELATO가 비슷한 규모의 baselines 대비 경쟁력을 보인다. 예를 들어 small 모델은 54.04의 네 모달 평균에서 상위권을 유지한다.

모듈식 설계와 효율성 분석

프로즈너-투-원-탑 구조에서 모달리티별 배치와 LoRA 어댑터를 재사용하고, 16개 태스크-조합의 projector-training을 독립적으로 실행해 학습 효율성을 분석한다.

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

Embedding 공간의 모달리티 간 간격은 학습 방식에 따라 달라지며, Frozen-tower GELATO의 경우 모달리티 간 경계가 더 혼합된 형태로 나타난다. MS-COCO Karpathy 분할에서 image-text 간 R@1은 LCO-Omni-7B(74.0/63.6), LCO-Omni-3B(71.6/58.0)로 나타났고, jina-embeddings-v5-omni-small은 68.0/57.0으로 나타났다. Cross-modal R@1은 텍스트-이미지 쌍에서 상호 보완적으로 작용한다. 오디오-텍스트의 경우 LCO-Omni-7B가 27.5%/29.8%로 우세했고, small/nano의 오디오 경로는 16.3%/15.2%, 14.1%/14.8%로 나타났다.

키워드

VLM-style architecturemultimodal embeddingfrozen encodersGeLATOInfoNCEMatryoshka representation learningLoRA adapters