개념 공간 정렬을 통한 통합 시각-언어 모델링

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존의 시각-언어 모델은 특정 언어나 모달리티에 종속되는 경우가 많았으나, 이 논문은 1500개 이상의 언어를 지원하는 텍스트 임베딩 공간에 시각 정보를 정렬하여 진정한 의미의 범용 멀티모달리티를 구현했다. 특히 텍스트로만 학습된 거대 개념 모델(LCM)이 별도의 추가 학습 없이도 영상을 이해할 수 있음을 입증하여 효율적인 멀티모달 확장 가능성을 제시했다.

왜 중요한가

핵심 기여

v-Sonar: 시각 모달리티로 확장된 언어-불가지론적 임베딩 공간

1500개 이상의 언어를 지원하는 Sonar 텍스트 임베딩 공간에 이미지와 비디오 모달리티를 통합하여, 모달리티와 언어에 구애받지 않는 통합 표현 공간을 구축했다.

3단계 점진적 커리큘럼 기반의 사후 정렬 전략

대규모 이미지-캡션 쌍에서 고품질 비디오-캡션 데이터로 이어지는 3단계 학습 과정을 통해 시각 인코더를 기존 텍스트 공간에 정밀하게 정렬하는 방법론을 제안했다.

텍스트 전용 LCM의 제로샷 시각 개념 이해 능력 입증

텍스트 데이터로만 사전 학습된 Large Concept Model(LCM)이 v-Sonar 임베딩을 통해 별도의 시각 데이터 학습 없이도 영상 캡셔닝 및 요약 작업을 수행할 수 있음을 확인했다.

다국어 시각-언어 지시 튜닝 모델 v-LCM 개발

잠재 확산(Latent Diffusion) 목적 함수를 사용하여 시각과 언어 입력을 통합 시퀀스로 처리하는 v-LCM을 제안하고, 61개 이상의 언어에서 기존 SOTA 모델을 능가하는 성능을 달성했다.

핵심 아이디어 이해하기

기존의 멀티모달 모델은 이미지와 텍스트를 연결하기 위해 대규모 쌍 데이터를 사용하여 두 모달리티를 동시에 학습시키거나, 특정 언어(주로 영어)에 편향된 임베딩 공간을 사용한다. 이는 수많은 언어를 지원해야 하는 글로벌 서비스 환경에서 확장성의 한계를 가져오며, 새로운 모달리티를 추가할 때마다 전체 모델을 다시 학습시켜야 하는 비효율이 발생한다.

본 논문은 이미 1500개 언어의 의미를 통합하고 있는 Sonar라는 텍스트 전용 임베딩 공간을 고정된 기준점으로 삼는다. 시각 인코더(Perception Encoder)의 출력값을 이 Sonar 공간의 좌표로 변환하는 가벼운 프로젝터(Projector)만을 학습시킴으로써, 시각 정보가 텍스트와 동일한 개념적 위치에 놓이도록 정렬한다. 이는 마치 외국어를 배울 때 모국어의 개념 체계에 새로운 단어를 매핑하는 것과 유사한 원리다.

이렇게 정렬된 v-Sonar 임베딩은 텍스트와 동일한 벡터 형식을 갖기 때문에, 텍스트의 다음 단어(또는 임베딩)를 예측하도록 설계된 Large Concept Model(LCM)이 시각 벡터를 입력받아도 이를 자연스럽게 이해할 수 있게 된다. 결과적으로 텍스트로만 세상을 배운 모델이 시각적 개념을 즉시 처리할 수 있는 제로샷 능력을 갖추게 되며, 이는 멀티모달 학습의 비용을 획기적으로 줄이는 결과로 이어진다.

방법론

v-Sonar 아키텍처는 고정된 시각 인코더인 Perception Encoder(PE) 위에 가벼운 커넥터(Connector)를 얹은 구조다. 입력된 비디오 프레임들은 PE를 통해 개별 임베딩으로 변환된 후, 시간적 정보를 반영하는 Temporal Attention 레이어를 거쳐 하나의 비디오 레벨 임베딩으로 응축된다. 이 최종 벡터는 선형 레이어를 통해 1024 차원의 Sonar 공간으로 매핑된다.

정렬 학습은 Mean Squared Error(MSE) 손실 함수를 사용하여 시각 임베딩 f_theta(V_i)와 텍스트 임베딩 g(T_i) 사이의 거리를 최소화하는 방식으로 진행된다. [V_i와 T_i를 입력으로] → [각각 시각 및 텍스트 인코더를 통과시켜 벡터를 생성하고] → [두 벡터 간의 유클리드 거리 제곱을 계산하여] → [그 값이 작아지도록 가중치를 갱신함으로써 두 정보의 의미적 일치성을 확보한다].

학습 과정은 3단계 커리큘럼을 따른다. 1단계에서는 12M개의 이미지-캡션 쌍으로 기초적인 매핑을 형성하고, 2단계에서는 2M개의 합성 비디오 데이터를 통해 시간적 변화를 학습하며, 3단계에서는 200K개의 고품질 비디오 데이터를 사용하여 정밀한 정렬을 완성한다. 이 과정에서 Sonar 텍스트 인코더는 고정(Frozen)하여 기존의 언어적 지식을 보존한다.

주요 결과

v-Sonar는 제로샷 비디오 검색 작업에서 PE-Video 데이터셋 기준 Recall@1 73.03을 기록하며, 강력한 베이스라인인 SigLIP2(63.91)를 크게 앞질렀다. 비디오 캡셔닝에서도 Dream-1k 벤치마크에서 Bleu 점수 23.9를 달성하여 기존 SOTA 모델(19.6) 대비 월등한 성능 향상을 보였다.

v-LCM은 M3IT 다국어 벤치마크의 62개 언어 중 61개 언어에서 기존 모델들을 압도했다. 특히 저리소스 언어(Low-resource languages)에서 성능 차이가 두드러졌는데, 이는 Sonar가 가진 강력한 다국어 임베딩 능력이 시각 모달리티와 성공적으로 결합되었음을 시사한다.

기술 상세

v-Sonar는 1.9B 파라미터 규모의 Perception Encoder(PE-Core-G14-448)를 백본으로 사용한다. 448x448 해상도의 이미지를 14x14 패치로 분할하여 처리하며, 비디오의 경우 8개의 프레임을 균일하게 샘플링하여 프레임별 임베딩을 추출한다.

커넥터 모듈은 Sinusoidal Positional Encoding과 8-헤드 Temporal Multi-head Self-attention을 포함하여 프레임 간의 시간적 관계를 모델링한다. 이후 Attention-based Pooling을 통해 가변적인 프레임 시퀀스를 고정된 크기의 벡터로 압축하며, 최종적으로 선형 MLP 레이어가 이를 Sonar의 잠재 공간으로 투영한다.

v-LCM은 잠재 확산(Latent Diffusion) 프레임워크를 기반으로 한다. 텍스트와 시각 임베딩을 동일한 시퀀스로 결합한 후, 다음 임베딩을 예측하는 방식으로 학습된다. 확산 과정에서는 가우시안 노이즈를 점진적으로 추가하는 순방향 프로세스와 이를 복원하는 역방향 프로세스를 통해 연속적인 벡터 공간에서의 생성을 수행한다.

실험 결과, 단순 MSE 손실만 사용하는 것이 Contrastive Loss를 추가하는 것보다 생성 작업(Captioning)에서 더 나은 성능을 보였다. 이는 대조 학습이 임베딩을 Sonar 매니폴드 밖으로 밀어내어 디코더의 복원 능력을 저해할 수 있기 때문으로 분석된다.

한계점

논문에서는 대조 학습(Contrastive Loss)을 추가했을 때 검색 성능은 향상되지만 생성 성능(Captioning)은 오히려 저하되는 트레이드오프가 발생함을 언급했다. 또한, Sonar 공간 자체가 붕괴(Collapse)될 위험이 있어 정렬 과정에서 세심한 하이퍼파라미터 조절이 필요함을 시사했다.

실무 활용

1500개 이상의 언어를 지원하는 범용 멀티모달 임베딩을 통해, 전 세계 다양한 언어권 사용자를 위한 비디오 검색 및 자동 자막 생성 서비스를 효율적으로 구축할 수 있다.

다국어 비디오 검색 엔진: 한국어 쿼리로 영어 또는 제3국어 영상을 정확하게 찾아내는 크로스-링구얼 검색 시스템
자동 영상 요약 및 캡셔닝: 뉴스나 교육 영상을 1500개 이상의 언어로 즉시 요약하고 설명하는 서비스
저리소스 언어권 AI 교육 도구: 텍스트 데이터가 부족한 소수 언어 사용자들에게 시각 정보를 매개로 한 AI 인터랙션 제공

코드 공개 여부: 비공개

키워드

v-Sonar(시각-언어 임베딩)LCM(거대 개념 모델)Multimodal(멀티모달)Latent Diffusion(잠재 확산)Zero-shot Learning(제로샷 학습)