언어 모델링을 넘어서: 멀티모달 사전 학습에 대한 탐구

왜 중요한가

기존 멀티모달 모델들이 이미 학습된 언어 모델에 시각 기능을 덧붙이는 방식이었다면, 이 논문은 처음부터 텍스트와 비전을 통합해 학습하는 최적의 설계도를 제시한다. 특히 시각 데이터가 언어보다 훨씬 더 많은 데이터를 필요로 한다는 데이터 갈증 현상을 발견하고, 이를 MoE 구조로 해결할 수 있음을 증명했다.

핵심 기여

RAE 기반 통합 시각 표현 체계 확립

시각 이해와 생성을 하나의 인코더로 처리하는 Representation Autoencoder(RAE)가 멀티모달 학습에 가장 효율적임을 입증했다.

모달리티 간 긍정적 시너지 확인

텍스트와 비전 데이터를 함께 학습할 때 상호 간섭이 거의 없으며, 오히려 언어 데이터가 이미지 생성 품질을 높이는 시너지가 발생함을 확인했다.

범용 학습을 통한 세계 모델링 능력 발현

특정 도메인 데이터 없이 일반 비디오 학습만으로도 물리적 인과관계를 예측하는 World Modeling 능력이 나타남을 증명했다.

멀티모달 스케일링 비대칭성 발견 및 MoE 해결책 제시

비전은 데이터에, 언어는 파라미터에 더 민감한 비대칭적 특성을 발견했으며, MoE 아키텍처가 이러한 불균형을 해소하는 최적의 도구임을 확인했다.

핵심 아이디어 이해하기

기존의 멀티모달 모델들은 텍스트를 처리하는 Transformer에 사전 학습된 시각 인코더를 연결하는 방식을 사용했다. 이는 텍스트라는 추상적 기호와 실제 물리적 세계인 비전 사이의 진정한 통합을 방해하며, 모델이 세상의 역학을 깊이 있게 이해하는 데 한계를 만든다. 본 논문은 이 문제를 해결하기 위해 텍스트와 비전을 동일한 Transformer 백본에서 처음부터 동시에 학습시키는 접근법을 취했다.

핵심 원리는 텍스트는 다음 토큰을 맞히는 방식으로, 비전은 노이즈를 제거하며 이미지를 복원하는 Diffusion 방식으로 학습하되 이를 하나의 손실 함수로 묶는 것이다. 이때 RAE를 사용하여 시각 정보를 고차원 벡터로 변환함으로써 모델이 시각적 의미와 픽셀 수준의 세부 사항을 동시에 학습하게 한다. 이는 모델이 단순한 단어의 나열을 넘어, 비디오 데이터를 통해 물리적 인과관계를 스스로 깨닫게 하는 기반이 된다.

결과적으로 이러한 통합 학습은 데이터 규모가 커질수록 두 모달리티가 서로의 학습을 돕는 구조를 형성한다. 특히 언어 모델링 능력이 향상될수록 텍스트 조건부 이미지 생성 능력이 정교해지는 등, 파편화된 학습으로는 도달할 수 없던 지능의 통합이 가능해진다.

방법론

Transfusion 프레임워크를 기반으로 단일 Transformer 백본에서 멀티모달 학습을 수행한다. 텍스트는 표준적인 자기회귀적 Cross-Entropy Loss를 사용하며, 시각 데이터는 Flow Matching 기반의 Diffusion Loss를 적용한다. [이미지/비디오 프레임 입력 → RAE 인코더 → 고차원 레이턴트 벡터 추출 → 노이즈 주입 및 Flow Matching 연산 → 디코더 → 픽셀 복원] 과정을 통해 시각 정보를 처리한다.

아키텍처 측면에서는 Modality-specific FFN을 도입하여 텍스트와 비전 토큰이 각각 전용 가중치 층을 통과하도록 설계했다. 이는 서로 다른 특성을 가진 데이터 간의 간섭을 줄이는 역할을 한다. 또한 Mixture-of-Experts(MoE)를 적용하여 전체 파라미터 수는 늘리되 활성 파라미터는 일정하게 유지함으로써 연산 효율성을 극대화했다.

학습 데이터는 520B 텍스트 토큰과 520B 멀티모달 토큰(비디오, 이미지-텍스트 쌍, 행동 조건부 비디오)을 혼합하여 총 1T 규모로 구성했다. 특히 행동 조건부 비디오 데이터의 경우, 로봇의 움직임을 텍스트 토큰으로 인코딩하여 모델이 물리적 행동과 시각적 변화 사이의 관계를 학습하도록 유도했다.

주요 결과

RAE(SigLIP 2) 기반 모델은 기존 VAE 기반 모델 대비 DPGBench와 GenEval 등 이미지 생성 벤치마크에서 월등한 성능을 보였다. 특히 VQA 정확도에서 텍스트 전용 모델 대비 유의미한 향상을 기록하며 시각 이해 능력의 우수성을 입증했다. 시각 데이터가 언어 성능을 저하시키지 않으면서도 시각적 지능을 성공적으로 통합했음이 확인됐다.

세계 모델링 실험에서는 Navigation World Model(NWM) 벤치마크를 통해 물리 예측 능력을 측정했다. 일반 비디오 데이터로 사전 학습된 모델은 단 1%의 도메인 특화 데이터만으로도 경쟁력 있는 궤적 예측 성능(ATE, RPE)을 달성했다. 이는 특정 목적의 데이터보다 광범위한 멀티모달 사전 학습이 물리적 직관 형성에 더 중요함을 시사한다.

스케일링 법칙 분석 결과, 언어는 Chinchilla 법칙을 따르지만 비전은 데이터 양에 훨씬 더 민감한(Data-hungry) 양상을 보였다. IsoFLOP 분석을 통해 비전의 최적 토큰 수 지수(b≈0.63)가 언어(b≈0.53)보다 높음을 정량적으로 확인했다. MoE 아키텍처는 이러한 비대칭성을 완화하여 언어의 파라미터 요구량과 비전의 데이터 요구량을 동시에 충족시켰다.

실무 활용

이 연구는 처음부터 멀티모달로 설계된 모델이 물리적 세계를 이해하는 '세계 모델'로서 기능할 수 있음을 보여주며, 로봇 제어나 복합 콘텐츠 생성 분야에 즉각적인 통찰을 제공한다.

자율 주행 및 로봇 공학을 위한 물리적 시뮬레이션 및 경로 계획(World Modeling)
텍스트 명령에 따른 정밀한 비디오 생성 및 편집 도구 개발
시각적 문맥을 완벽히 이해하는 차세대 멀티모달 AI 비서 서비스
대규모 비디오 데이터를 활용한 산업용 이상 징후 감지 및 예측 시스템

기술 상세

모델은 Decoder-only Transformer 구조를 취하며, 텍스트와 비전 모달리티를 분리하여 처리하는 전용 FFN 레이어를 갖추고 있다. 학습 시에는 FlexAttention을 활용한 하이브리드 마스킹 전략을 사용하여 텍스트는 인과적(Causal)으로, 시각 프레임 내 토큰들은 양방향(Bidirectional)으로 참조하도록 설계했다.

MoE 설계에서는 전문가의 입도(Granularity)가 핵심 변수로 작용한다. 실험 결과, 언어는 더 세밀한 라우팅(G=16)에서, 비전은 상대적으로 굵은 라우팅(G=4)에서 최적의 성능을 보였다. 또한 레이어가 깊어질수록 모달리티 전용 전문가에서 멀티모달 통합 전문가로 역할이 전이되는 Emergent Specialization 현상이 관찰됐다.

Scaling Law 도출을 위해 10^19에서 10^21 FLOPs 범위에서 IsoFLOP 스윕을 수행했다. 비전 모달리티의 데이터 민감도가 언어보다 높기 때문에, 모델 크기를 키울 때 비전 데이터를 언어보다 더 빠르게 늘려야 최적의 성능에 도달할 수 있음을 수학적으로 증명했다. MoE는 이러한 비대칭적 확장 요구를 구조적으로 수용할 수 있는 유연성을 제공한다.

한계점

본 연구는 인터리브(Interleaved) 데이터(텍스트와 이미지가 섞인 문서 등)를 학습에서 제외했으므로, 복잡한 문서 이해 능력에 대한 추가 검증이 필요하다. 또한 현재의 시맨틱 시각 인코더는 미세한 픽셀 재구성 능력에서 VAE에 비해 다소 뒤처지는 한계가 명시됐다.

키워드

Multimodal(멀티모달)Transfusion(트랜스퓨전)MoE(전문가 혼합)World-Modeling(세계 모델링)Scaling-Laws(스케일링 법칙)RAE(표현 오토인코더)