핵심 요약
기존 멀티모달 모델들이 이해(VLM)와 생성(Diffusion)을 위해 서로 다른 구조를 결합했던 것과 달리, 단일 이산 확산 모델(dLLM) 아키텍처로 두 기능을 완벽히 통합했다. 이를 통해 텍스트와 이미지가 뒤섞인 복잡한 추론과 고화질 이미지 생성을 하나의 흐름으로 처리할 수 있는 차세대 통합 파운데이션 모델의 가능성을 입증했다.
왜 중요한가
기존 멀티모달 모델들이 이해(VLM)와 생성(Diffusion)을 위해 서로 다른 구조를 결합했던 것과 달리, 단일 이산 확산 모델(dLLM) 아키텍처로 두 기능을 완벽히 통합했다. 이를 통해 텍스트와 이미지가 뒤섞인 복잡한 추론과 고화질 이미지 생성을 하나의 흐름으로 처리할 수 있는 차세대 통합 파운데이션 모델의 가능성을 입증했다.
핵심 기여
완전한 시맨틱 이산 토크나이저 도입
SigLIP-VQ를 활용하여 시각적 입력을 재구성 중심이 아닌 의미(Semantic) 중심의 이산 토큰으로 변환한다. 이는 모델이 이미지의 세부 사항을 논리적으로 파악하고 복잡한 시각적 추론을 수행하는 기초가 된다.
16B MoE 기반의 통합 dLLM 아키텍처
Mixture-of-Experts(MoE) 구조를 채택한 160억 파라미터 규모의 이산 확산 언어 모델을 백본으로 사용한다. 텍스트와 이미지 토큰을 동일한 블록 단위 마스크 예측 목적 함수로 학습하여 이해와 생성 능력을 동시에 확보했다.
SPRINT를 통한 추론 가속화
Sparse Prefix Retention(SPRINT) 기법을 도입하여 추론 시 불필요한 KV 캐시를 제거하고 적응형 언마스킹 전략을 사용한다. 이를 통해 품질 저하 없이 기존 대비 최대 1.6배의 추론 속도 향상을 달성했다.
핵심 아이디어 이해하기
기존의 멀티모달 모델은 텍스트를 처리하는 Autoregressive(AR) 방식과 이미지를 생성하는 Diffusion 방식을 억지로 이어 붙인 형태가 많았다. 이로 인해 두 모달리티 간의 최적화 목표가 충돌하거나, 이미지 토큰이 단순한 픽셀 재구성에 치중되어 깊이 있는 시각적 이해가 부족한 한계가 있었다. LLaDA2.0-Uni는 모든 데이터를 '이산 확산(Discrete Diffusion)'이라는 하나의 문법으로 통일하여 이 문제를 해결한다.
핵심 원리는 이미지를 SigLIP-VQ를 통해 언어와 유사한 '의미적 토큰'으로 바꾸는 것이다. Transformer의 Embedding 공간에서 텍스트와 이미지는 이제 구분되지 않는 데이터 조각이 된다. 모델은 학습 시 시퀀스의 일부를 마스킹(Masking)하고 이를 복구하는 과정을 거치는데, 이때 텍스트는 문맥을 파악하고 이미지는 형태와 의미를 동시에 학습하게 된다. 결과적으로 모델은 이미지를 보며 논리적으로 사고하는 동시에, 그 사고의 결과물로 정교한 이미지를 그려낼 수 있게 된다.
이러한 통합은 '병렬 디코딩'을 가능하게 하여 추론 효율성을 극대화한다. 모든 토큰을 한 번에 하나씩 생성하는 대신, 확산 과정을 통해 전체 시퀀스를 동시에 정제해 나감으로써 고해상도 멀티모달 콘텐츠 생성 속도를 획기적으로 높였다.
방법론
LLaDA2.0-Uni는 세 가지 핵심 컴포넌트로 구성된다. 첫째, SigLIP-VQ 토크나이저는 시각적 입력을 16,384개의 코드북 크기를 가진 이산 토큰으로 변환한다. 둘째, 16B MoE dLLM 백본은 블록 단위 마스크 예측(Block-wise Mask Prediction)을 수행한다. 셋째, Diffusion Decoder는 백본이 생성한 시맨틱 토큰을 입력받아 고화질 이미지를 복원한다.
백본의 Block-wise Attention 메커니즘은 전체 시퀀스에 대해 Bidirectional Attention을 수행하되, 특정 블록 내로 주의 집중 범위를 제한하여 학습 안정성을 높인다. [입력 토큰 시퀀스 → 블록 단위 마스킹 → Bidirectional Self-Attention 연산 → 마스크 토큰 예측 → 손실 함수 계산] 순으로 연산이 진행되며, 이는 모델이 문맥의 전후 관계를 동시에 파악하도록 유도한다.
이미지 생성을 위한 Diffusion Decoder는 Flow Matching 목적 함수를 사용하여 최적화된다. [시맨틱 토큰 z와 타겟 이미지 x₁ 입력 → 속도 필드 v_theta 예측 → 타겟 속도 v_t와의 차이 계산 → 가중치 업데이트] 과정을 거친다. 특히 8단계의 CFG-free 추론이 가능하도록 증류(Distillation) 기법을 적용하여 생성 속도와 품질의 균형을 맞췄다.
주요 결과
멀티모달 이해 벤치마크에서 LLaDA2.0-Uni는 MMStar 64.1점, MMMU 50.1점을 기록하며 Qwen2.5-VL-7B와 같은 전문 VLM 모델과 대등하거나 일부 지표에서 앞서는 성능을 보였다. 특히 복잡한 추론이 필요한 MathVista에서 68.1점을 기록하며 기존 확산 기반 통합 모델들을 크게 압도했다.
이미지 생성 성능에서도 GenEval 0.89점, DPG-Bench 87.76점을 달성하여 FLUX.1 [Dev]와 같은 생성 전용 모델에 근접한 품질을 증명했다. 텍스트 렌더링 능력을 측정하는 CVTG-2K 벤치마크에서는 0.765점을 기록하며, 다중 지역 텍스트 생성 시 성능 저하가 발생하는 기존 모델들과 달리 높은 안정성을 보여주었다.
효율성 측면에서 SPRINT 가속화 기법을 적용했을 때, DocVQA 벤치마크에서 초당 토큰 처리량(TPS)이 8.0에서 27.6으로 약 3.5배 향상되는 등 긴 시퀀스 처리에서 탁월한 가속 효과를 입증했다.
기술 상세
LLaDA2.0-Uni는 BDLM(Block Diffusion Language Model) 목적 함수를 확장하여 사용한다. 이는 개별 토큰이 아닌 블록 단위로 마스킹을 수행하여 가변 길이 시퀀스에서도 일관된 문맥을 유지하게 한다. MoE 백본은 16B 파라미터를 가지며, 전문가 간 부하 불균형을 방지하기 위해 Auxiliary-loss-free 로드 밸런싱 전략을 채택했다.
학습은 3단계로 진행된다. Stage 0에서는 1,000억 개의 토큰으로 시각-언어 정렬을 수행하고, Stage 1에서는 2,100억 개의 토큰으로 멀티태스크 예비 학습을 진행한다. 마지막 Stage 2에서는 800억 개의 토큰으로 지도 미세 조정(SFT)을 수행하며, 이때 컨텍스트 길이를 8k에서 16k로 확장하여 복잡한 추론 능력을 강화한다.
추론 가속을 위한 SPRINT 프레임워크는 중요도가 낮은 KV 캐시를 제거하는 Sparse Prefix Retention과 확신도가 높은 토큰을 조기에 확정하는 Non-uniform Token Unmasking을 결합한다. 이는 특히 이미지 생성과 같이 연산 집약적인 작업에서 품질 손실을 최소화하면서도 실시간성에 가까운 속도를 제공한다.
한계점
SigLIP-VQ 토크나이저가 풍부한 시맨틱 정보를 제공하지만, 아주 미세한 이미지 세부 사항(Fine-grained details)을 보존하는 데는 여전히 한계가 있어 이미지 편집 작업 시 일부 디테일이 손실될 수 있다. 또한 복잡한 인터리브드 생성 및 추론 능력을 완전히 끌어내기 위해서는 더 대규모의 학습 데이터와 모델 확장이 필요하다.
실무 활용
텍스트와 이미지가 혼합된 복잡한 문서를 이해하고, 그에 기반한 시각적 콘텐츠를 생성해야 하는 업무 자동화에 즉시 활용 가능하다.
- 이미지가 포함된 기술 문서나 논문을 읽고 질의응답을 수행하며 관련 도표를 수정하거나 생성
- 사용자의 복잡한 편집 지시(이미지 내 특정 텍스트 변경, 객체 추가 등)를 이해하고 고화질로 반영
- 텍스트와 이미지가 교차로 등장하는 스토리보드나 교육용 콘텐츠의 자동 생성 및 논리적 검토
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.