핵심 요약
본 논문에서는 1,500개의 텍스트 언어와 177개의 음성 언어를 지원하는 텍스트 전용 임베딩 공간인 SONAR를 확장한 시각-언어 임베딩 공간 V-SONAR를 소개합니다. V-SONAR를 구축하기 위해 기존 비전 인코더(Vision Encoder)의 표현을 SONAR 공간으로 매핑하는 사후 정렬(Post-hoc alignment) 파이프라인을 제안합니다. V-SONAR에 대한 철저한 평가를 통해 해당 임베딩이 텍스트-비디오 검색(Text-to-video retrieval)에서 경쟁력 있는 성능을 달성함을 보여줍니다. 또한 OMNISONAR 텍스트 디코더를 장착한 V-SONAR는 DREAM-1K(BLEU 23.9 대 19.6) 및 PE-VIDEO(BLEU 39.0 대 30.0)를 포함한 비디오 캡셔닝(Video captioning) 과제에서 최첨단 시각-언어 모델들을 능가합니다. V-SONAR를 활용하여, SONAR 공간에서 작동하며 영어 텍스트로만 학습된 대형 개념 모델(Large Concept Model, LCM)이 제로샷(Zero-shot) 방식으로 단일 및 다중 시각 개념 이해를 모두 수행할 수 있음을 최초로 입증합니다. 마지막으로 시각-언어 지시어 튜닝(Vision-language instruction tuning)으로 LCM을 확장한 V-LCM을 소개합니다. V-LCM은 V-SONAR와 SONAR를 통해 시각 및 언어 입력을 통합된 잠재 임베딩(Latent embeddings) 시퀀스로 인코딩하며, LCM의 텍스트 전용 사전 학습과 동일한 다음 임베딩 예측을 위한 잠재 확산 목적 함수(Latent diffusion objective)로 학습됩니다. 대규모 다국어 및 다중 모달 지시어 튜닝 데이터 혼합물에 대한 실험은 V-LCM의 잠재력을 강조합니다. V-LCM은 이미지/비디오 캡셔닝 및 질의응답을 포함한 과제에서 최첨단 시각-언어 모델들과 대등한 성능을 보이는 동시에, 테스트된 62개 언어 중 자원이 풍부한 언어부터 부족한 언어까지 61개 언어에서 기존 모델들을 유의미하게 앞질렀습니다.
핵심 기여
V-SONAR 임베딩 공간 구축
1,500개 이상의 언어를 지원하는 SONAR 텍스트 임베딩 공간을 시각 도메인으로 확장하여 다국어 대응이 가능한 통합 시각-언어 표현 공간을 생성했다.
사후 정렬 파이프라인 제안
기존에 학습된 비전 인코더의 출력을 고정된 SONAR 공간으로 매핑하는 효율적인 사후 정렬 방식을 통해 추가적인 대규모 학습 없이도 강력한 멀티모달 정렬을 구현했다.
V-LCM 모델 설계 및 학습
잠재 확산 목적 함수를 활용하여 시각과 언어 임베딩을 동일한 시퀀스 상에서 예측하는 차세대 멀티모달 아키텍처인 V-LCM을 개발했다.
광범위한 다국어 제로샷 성능 입증
영어 데이터로만 학습된 모델이 V-SONAR 공간의 특성을 활용하여 60개 이상의 다양한 언어에서 별도의 튜닝 없이도 최첨단 수준의 시각 이해 성능을 발휘함을 확인했다.
방법론
기존 비전 인코더의 특징 벡터를 SONAR라는 거대 다국어 텍스트 임베딩 공간에 일치시키는 사후 정렬(Post-hoc alignment) 기법을 사용한다. V-LCM은 텍스트와 이미지/비디오 입력을 모두 V-SONAR 공간의 잠재 임베딩 시퀀스로 변환한 뒤, LCM(Large Concept Model) 아키텍처 내에서 잠재 확산 목적 함수(Latent Diffusion Objective)를 적용하여 다음 임베딩을 생성하도록 학습된다.
주요 결과
비디오 캡셔닝 벤치마크인 DREAM-1K에서 BLEU 23.9점(기존 SOTA 19.6점 대비 향상), PE-VIDEO에서 39.0점(기존 30.0점 대비 향상)을 기록했다. 특히 62개 언어를 대상으로 한 다국어 평가에서 61개 언어에 대해 기존의 최첨단 시각-언어 모델들보다 뛰어난 성능을 보이며 저자원 언어에서의 압도적인 범용성을 증명했다.
시사점
특정 언어(영어) 중심의 데이터로 학습된 모델이 임베딩 공간 정렬만으로 수천 개의 언어로 확장될 수 있음을 보여준다. 이는 전 세계의 다양한 언어 사용자들에게 고품질의 멀티모달 AI 서비스를 제공할 수 있는 기술적 토대를 마련하며, 잠재 공간에서의 확산 모델 학습이 멀티모달 통합의 효과적인 경로임을 시사한다.
키워드
섹션별 상세
V-SONAR 임베딩 공간 구축
사후 정렬 파이프라인 제안
V-LCM 모델 설계 및 학습
광범위한 다국어 제로샷 성능 입증
AI 요약 · 북마크 · 개인 피드 설정 — 무료