Omni-Diffusion: 마스크 기반 이산 확산 모델을 활용한 통합 멀티모달 이해 및 생성

왜 중요한가

기존 멀티모달 AI는 주로 다음 단어를 예측하는 순차적 방식(Autoregressive)을 사용해 속도와 확장성에 한계가 있었다. 이 논문은 확산 모델(Diffusion)을 언어 모델의 뼈대로 사용하여, 별도의 추가 모델 없이도 텍스트, 이미지, 음성을 동시에 이해하고 생성하는 통합 시스템을 구현했다.

핵심 기여

최초의 확산 모델 기반 Any-to-Any 멀티모달 언어 모델

마스크 기반 이산 확산 모델을 활용하여 텍스트, 이미지, 음성 간의 이해와 생성을 하나의 프레임워크로 통합한 Omni-Diffusion을 제안했다.

공유 시맨틱 공간 내 멀티모달 토큰 결합 분포 학습

서로 다른 모달리티의 이산 토큰들을 하나의 어휘 사전으로 통합하고, 이들의 결합 분포를 직접 모델링하여 모달리티 간의 강력한 의미적 정렬을 달성했다.

3단계 점진적 학습 및 특화된 추론 기법 도입

시각-언어 정렬부터 복합 상호작용까지 단계별 학습 파이프라인을 구축하고, 이미지 품질 개선을 위한 Position Penalty 및 음성 일관성을 위한 Special Token Pre-infilling 기법을 개발했다.

핵심 아이디어 이해하기

기존 Transformer 기반 LLM은 토큰을 하나씩 순서대로 생성하는 자기회귀(Autoregressive) 방식을 사용한다. 이는 텍스트에는 효과적이지만, 이미지나 음성처럼 복잡한 데이터 분포를 가진 멀티모달 데이터를 통합적으로 처리하기에는 구조적 유연성이 부족하고 생성 과정의 제어가 어렵다는 한계가 있다.

Omni-Diffusion은 이 문제를 해결하기 위해 마스크 기반 이산 확산 모델(MDM)을 채택한다. MDM은 입력 데이터의 일부를 [MASK] 토큰으로 가리고, 주변 맥락을 통해 원래 토큰을 예측하는 방식으로 학습한다. 이는 특정 순서에 얽매이지 않고 전체 데이터의 결합 분포를 학습하므로, 텍스트-이미지-음성 간의 의미적 연결을 더 견고하게 만든다.

특히 확산 모델의 특성상 병렬 디코딩이 가능해져 생성 효율이 높아지며, 생성 과정 중에 특정 위치의 토큰을 고정하거나 제어하는 것이 훨씬 자유롭다. 이를 통해 하나의 모델이 별도의 어댑터 없이도 이해(Perception)와 생성(Generation)을 동시에 수행하는 통합 시스템으로 기능하게 된다.

방법론

전체 아키텍처는 Dream-7B를 기반으로 한 이산 확산 언어 모델을 뼈대로 사용한다. 이미지(MAGViT-v2), 음성(SenseVoiceSmall/GLM-4-Voice)을 위한 전용 토크나이저를 통해 모든 모달리티를 이산 토큰 시퀀스로 변환한 뒤, 이를 하나의 통합된 어휘 사전(Vocabulary)으로 관리한다.

학습은 3단계 점진적 파이프라인으로 진행된다. 1단계에서는 시각-언어 정렬, 2단계에서는 음성-시각-언어 공동 정렬, 3단계에서는 자체 구축한 SDVI(Speech-Driven Visual Interaction) 데이터셋을 활용해 복합적인 상호작용 능력을 극대화한다. 가변 길이 생성을 위해 패딩 토큰의 마스크 비율을 조절하는 Attenuated Tail-Pad Masking 전략을 적용한다.

추론 시에는 엔트로피 기반 디코딩 전략을 사용한다. 각 위치의 토큰 확률 분포 p가 주어질 때 -sum(p * log p)를 계산하여 엔트로피를 구한다. 엔트로피가 낮을수록 모델의 확신이 높음을 의미하며, [확률 분포 산출 → 엔트로피 계산 → 신뢰도 높은 토큰 확정 → 나머지 마스크 유지 및 반복] 과정을 통해 점진적으로 데이터를 복원한다.

주요 결과

음성 작업에서 AnyGPT 대비 우수한 성능을 보였다. LibriSpeech ASR에서 WER 7.05, LibriTTS TTS에서 WER 3.07을 기록하며 기존 any-to-any 모델들을 압도했다. 시각 이해 및 생성 벤치마크에서도 POPE(76.6), MME-P(1216.7) 등 VQA 지표에서 전용 시각 모델인 LLaVA와 대등한 수준을 보였으며, 텍스트-이미지 생성(CLIP-I 0.667)에서도 높은 정렬 성능을 나타냈다.

샘플링 효율성 분석 결과, 이미지 생성 시 타임스텝을 256에서 10으로 대폭 줄여도 CLIP 점수의 하락이 미미(0.667에서 0.650으로 감소)하여 확산 모델 기반의 효율적인 병렬 생성 능력을 증명했다. 이는 자기회귀 모델이 모든 토큰을 순차적으로 생성해야 하는 것과 대조되는 강력한 장점이다.

실무 활용

텍스트, 이미지, 음성을 자유롭게 오가는 통합 인터페이스 구축에 최적화되어 있다. 특히 음성으로 이미지를 편집하거나 시각적 질문에 음성으로 답하는 실시간 상호작용 시스템에 즉시 활용 가능하다.

음성 명령을 통한 실시간 이미지 생성 및 편집 서비스
시각 장애인을 위한 주변 상황 음성 설명 및 대화 가이드
멀티모달 콘텐츠 제작을 위한 통합 저작 도구
복합 모달리티 데이터를 다루는 지능형 고객 상담 에이전트

기술 상세

본 연구는 자기회귀 모델의 순차적 제약을 벗어나기 위해 마스크 기반 이산 확산 모델(MDM)을 멀티모달 백본으로 확장했다. MDM은 x0 시퀀스의 토큰을 무작위 비율 r로 [MASK]로 교체하여 xt를 만들고, 모델이 원래 토큰을 복원하도록 Cross-Entropy Loss를 통해 학습된다. 이때 r은 [0, 1] 구간에서 균등하게 샘플링된 타임스텝 t에 의해 결정된다.

이미지 생성 시 발생하는 반복 패턴 문제를 해결하기 위해 Position Penalty를 도입했다. 추론 초기 단계에서 시퀀스의 마지막 Nt개 토큰(이미지의 하단부) 로짓에 고정된 인자 gamma_p < 1을 곱해 생성 순서를 소프트하게 제어함으로써 시각적 품질을 높였다. 이는 모델이 시퀀스의 양 끝단을 동시에 디코딩하면서 발생하는 중복 패턴 생성을 방지한다.

음성 생성의 일관성을 위해 Special Token Pre-infilling 전략을 사용한다. 초기 마스크 시퀀스의 0.25L 위치에 [begin-of-speech] 토큰을 삽입하여 모델이 앞부분의 텍스트 맥락을 먼저 처리하고 이를 바탕으로 음성 신호를 생성하도록 유도한다. 또한 음성 길이에 따른 Adaptive Token Length Assignment를 통해 생성 속도와 품질의 균형을 맞췄다.

가변 길이 생성 시 발생하는 오버피팅을 방지하고자 Attenuated Tail-Pad Masking을 제안했다. 패딩 토큰에 대한 마스크 비율을 의도적으로 낮추어 모델의 그래디언트 업데이트가 실제 의미 있는 시맨틱 토큰에 집중되도록 설계하여 학습 안정성을 확보했다.

키워드

MLLM(멀티모달 대형 언어 모델)Discrete Diffusion(이산 확산 모델)Any-to-Any(임의 모달리티 간 변환)Unified Model(통합 모델)SDVI(음성 기반 시각 상호작용)