TL;DR
다중 모달 검색과 RAG 파이프라인에서 텍스트 임베딩의 품질을 유지하면서 이미지, 비디오, 오디오를 같은 임베딩 공간으로 연결해야 한다. GELATO는 frozen 텍스트 인코더와 frozen 비텍스트 인코더를 유지하고, 작은 projector로 모달리티를 텍스트 공간에 정렬한다. 이로써 텍스트-기반 임베딩 성능을 유지하면서 비텍스트 입력도 효과적으로 검색 가능하도록 확장한다.
왜 중요한가
다중 모달 검색과 RAG 파이프라인에서 텍스트 임베딩의 품질을 유지하면서 이미지, 비디오, 오디오를 같은 임베딩 공간으로 연결해야 한다. GELATO는 frozen 텍스트 인코더와 frozen 비텍스트 인코더를 유지하고, 작은 projector로 모달리티를 텍스트 공간에 정렬한다. 이로써 텍스트-기반 임베딩 성능을 유지하면서 비텍스트 입력도 효과적으로 검색 가능하도록 확장한다.
핵심 기여
GELATO 설계 및 jina-embeddings-v5-omni 확장
독립적으로 사전 학습된 모달리티 인코더를 텍스트 임베딩 모델에 매핑하기 위해 작고 학습 가능한 projector를 도입하고, 텍스트 백본은 고정 상태를 유지하여 전체 파라미터 증가를 최소화한다.
오픈-웨이트 omni-스타일 모델 컬렉션 공개
jina-embeddings-v5-omni-nano(0.24B 기반)와 jina-embeddings-v5-omni-small(0.67B 기반) 및 8개의 태스크-특화 변형으로 구성된 모델 컬렉션을 공개한다.
벤치마크에서 경쟁력 있는 성능
텍스트/이미지/오디오/비디오를 포함하는 다중 모달 벤치마크에서 GELATO가 비슷한 규모의 baselines 대비 경쟁력을 보인다. 예를 들어 small 모델은 54.04의 네 모달 평균에서 상위권을 유지한다.
모듈식 설계와 효율성 분석
프로즈너-투-원-탑 구조에서 모달리티별 배치와 LoRA 어댑터를 재사용하고, 16개 태스크-조합의 projector-training을 독립적으로 실행해 학습 효율성을 분석한다.
핵심 아이디어 이해하기
방법론
관련 Figure

텍스트 백본의 고정과 비텍스트 모듈의 연결, 모듈 간 전달 구조를 한눈에 파악할 수 있다. 이 그림은 methodology를 보강하며, frozen-tower 설계의 핵심 의도를 직접적으로 설명한다.
GELATO 아키텍처를 개략적으로 보여주는 다이어그램.

텍스트 백본과 고정된 비텍스트 모듈, 그리고 연결 프로젝트의 흐름을 보여준다. Modality-delimiter와 trainable projector의 역할을 시각적으로 확인할 수 있다.
jina-embeddings-v5-omni의 전체 아키텍처 다이어그램.

입력 시퀀스에 모달리티 구분자와 자리 표시자를 배치하는 방식과, 비디오의 프레임 시퀀스 구성 방법을 시각적으로 보여준다. methodology에 직접 기여한다.
Figure 3: 입력 시퀀스 구성 예시(텍스트+모달리티 구분자).

vision 프로젝터의 구성 변경이 성능에 미치는 영향을 보여준다. 단일 프로젝터 구성(I: PRO)으로도 성능이 안정적으로 수렴하는 경향을 확인할 수 있다.
Figure 7: Vision ablation 테스트 결과(프로젝터 구성 변화).
주요 결과
관련 Figure

여러 omni 스타일 모델 간 이미지/비디오/오디오/텍스트 간 거리를 시각화한다. 모달리티 간 간극이 줄고 서로 얽힌 임베딩 공간의 특성을 설명하는 데 기여한다.
MSR-VTT 기반 모달리티 기하학(UMAP) 비교 차트의 일부.

모델 간 임베딩 공간의 혼합 정도를 비교한다. Gelato 계열은 텍스트/이미지/오디오/비디오가 같은 영역에서 교차하는 경향을 보이며, 모달리티 간 간격이 줄어드는 경향을 뒷받침한다.
Figure 4: 80개의 MSR-VTT 클립에 대한 모달리티 기하학(UMAP) 각 모델의 임베딩 분포.

다중 모달 임베딩에서 80개 언어 셋에서의 언어별 이미지-텍스트 매칭 성능 차이를 보여준다. Small 모델이 비영어권에서 강하다는 점을 시각적으로 확인한다.
XM3600 이미지-언어 비교 차트: Small/Nano 대비 다른 모델과의 차이.

언어별 오디오-텍스트 페어의 매칭 성능이 비슷하게 상승하는 흐름을 보이며, 특정 언어에서의 강점과 약점을 파악하는 데 기여한다.
Per-language audio retrieval 결과(언어별).
기술 상세
Embedding 공간의 모달리티 간 간격은 학습 방식에 따라 달라지며, Frozen-tower GELATO의 경우 모달리티 간 경계가 더 혼합된 형태로 나타난다. MS-COCO Karpathy 분할에서 image-text 간 R@1은 LCO-Omni-7B(74.0/63.6), LCO-Omni-3B(71.6/58.0)로 나타났고, jina-embeddings-v5-omni-small은 68.0/57.0으로 나타났다. Cross-modal R@1은 텍스트-이미지 쌍에서 상호 보완적으로 작용한다. 오디오-텍스트의 경우 LCO-Omni-7B가 27.5%/29.8%로 우세했고, small/nano의 오디오 경로는 16.3%/15.2%, 14.1%/14.8%로 나타났다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.