핵심 요약
기존 이미지 생성 모델은 텍스트 프롬프트를 정확히 이해하지 못하거나 복잡한 공간 관계를 무시하는 경우가 많았다. MMCORE는 이미 똑똑하게 훈련된 시각 언어 모델(VLM)의 지식을 생성 과정에 직접 주입하여, 별도의 대규모 재학습 없이도 정교한 이미지 편집과 생성을 가능하게 한다.
왜 중요한가
기존 이미지 생성 모델은 텍스트 프롬프트를 정확히 이해하지 못하거나 복잡한 공간 관계를 무시하는 경우가 많았다. MMCORE는 이미 똑똑하게 훈련된 시각 언어 모델(VLM)의 지식을 생성 과정에 직접 주입하여, 별도의 대규모 재학습 없이도 정교한 이미지 편집과 생성을 가능하게 한다.
핵심 기여
VLM 기반의 의미적 잠재 임베딩 추출
학습 가능한 쿼리 토큰을 사용하여 사전 학습된 VLM에서 고수준의 시각적 의미 정보를 추출하고, 이를 확산 모델의 조건부 신호로 활용하는 경량화된 프레임워크를 구축했다.
이중 경로 조건부 제어 메커니즘
VLM의 텍스트 임베딩과 새롭게 학습된 시각 쿼리 토큰을 동시에 사용하는 Dual-Pathway 방식을 도입하여 세부적인 텍스트 명령 준수와 시각적 일관성을 모두 확보했다.
효율적인 2단계 학습 전략
VLM 백본을 고정하지 않고 미세 조정하면서 시각 인코더(SigLIP)의 특징과 정렬시키는 증류(Distillation) 기법을 적용해 학습 수렴 속도를 높이고 성능을 최적화했다.
핵심 아이디어 이해하기
기존의 이미지 생성 모델은 주로 텍스트 인코더(CLIP 등)에 의존하여 프롬프트를 해석하지만, 이는 복잡한 문장이나 논리적 관계를 파악하는 데 한계가 있다. MMCORE는 이 문제를 해결하기 위해 '이미 똑똑한' 멀티모달 거대 언어 모델(MLLM)을 이미지 생성의 '두뇌'로 사용한다. MLLM이 텍스트와 이미지를 동시에 읽고 상황을 완벽히 파악한 뒤, 그 핵심 요약을 '잠재 임베딩'이라는 암호 형태로 확산 모델에게 전달하는 방식이다.
이 과정에서 핵심은 '정렬(Alignment)'이다. MLLM이 내뱉는 추상적인 언어적 지식을 확산 모델이 이해할 수 있는 시각적 신호로 바꾸기 위해, SigLIP과 같은 강력한 시각 인코더의 특징을 따라하도록 학습시킨다. 이는 마치 외국어 번역가가 원문의 뉘앙스를 살려 현지인이 이해하기 쉬운 단어로 요약해주는 것과 같다.
결과적으로 MMCORE는 단순히 단어를 그림으로 바꾸는 수준을 넘어, '남자의 눈높이가 여자의 입술 위치에 오게 하라'와 같은 정교한 공간적 추론이나 여러 장의 이미지를 참조하는 복잡한 편집 작업에서도 기존 모델보다 훨씬 정확한 결과물을 만들어낸다.
방법론
MMCORE는 하단에 MLLM 백본을 두고 상단에 확산 모델 헤드를 배치한 구조를 가진다. MLLM은 입력된 멀티모달 데이터로부터 N=64개의 학습 가능한 쿼리 토큰 Q를 사용하여 핵심 정보를 추출한다. [입력 데이터 → MLLM 자가 주의 집중 연산 → 64개의 벡터 출력] 과정을 거쳐 고차원 의미 정보가 압축된다.
추출된 쿼리 토큰은 동결된 시각 인코더(SigLIP)의 특징 벡터 v와 코사인 유사도 손실 함수(Lvis)를 통해 정렬된다. [쿼리 토큰과 SigLIP 특징값 입력 → 코사인 유사도 계산 → 1에서 뺀 값 최소화] 연산을 수행하여 MLLM의 출력이 시각적으로 풍부한 의미를 담도록 강제한다. 최종 손실 함수는 텍스트 생성 손실(Lllm)과 시각 정렬 손실(Lvis)의 가중합으로 구성된다.
확산 모델부에서는 MMDiT 아키텍처를 기반으로 Flow Matching을 사용한다. 이때 텍스트 임베딩과 시각 쿼리 토큰을 모두 참조하는 Dual-Pathway Conditioning을 적용한다. [텍스트+시각 임베딩 입력 → 교차 주의 집중(Cross-Attention) → 노이즈 제거 방향 예측] 순서로 작동하며, 이전 프레임의 VAE 잠재값은 참조하되 이전 프레임의 시각 토큰은 제외하는 블록 인과적 마스킹(Block-causal mask)을 통해 최적화 안정성을 확보했다.
관련 Figure

하단의 Multi-Modal AR(MLLM)이 쿼리 토큰을 통해 정보를 압축하고, 이를 상단의 Diffusion Head에 전달하는 구조를 시각화한다. VLM의 지식이 어떻게 생성 모델의 조건으로 변환되는지 설명한다.
MMCORE의 전체 아키텍처 다이어그램
주요 결과
DreamBench 자동 평가 결과, MMCORE는 텍스트-이미지 정렬도에서 84.42%를 기록하며 Seedream 4.0(78.2%) 및 GPT-Image-1(80.69%)을 상회하는 성능을 보였다. 특히 이미지 편집 일관성(Consistency) 지표에서 70.62%를 달성하여 기존 모델들(40~60%대) 대비 압도적인 우위를 점했다.
Ablation Study를 통해 쿼리 토큰의 개수 N=64가 효율성과 표현력 사이의 최적점임을 확인했다. 또한 VLM 백본을 고정(Frozen)하는 대신 전체 미세 조정(Full Fine-tuning)을 수행했을 때 GPT-4o 평가 점수가 0.67에서 0.81로 크게 상승하여, 백본의 유연한 적응이 성능 향상의 핵심 요인임을 입증했다.
정성적 분석에서는 '피자 5조각 중 2조각만 먹은 상태'와 같은 수치적 제약이나 '남자의 눈과 여자의 입 높이 맞추기' 같은 상대적 위치 관계를 정확히 구현해내는 능력을 입증했다. 이는 기존 확산 모델들이 자주 실패하던 복잡한 관계 추론 영역에서 뚜렷한 개선을 보여준다.
관련 Figure

MMCORE가 텍스트 정렬(영어/중국어), 편집 일관성, 구조적 충실도 등 모든 지표에서 기존 모델인 Seedream 4.0을 압도하고 있음을 보여준다. 특히 다중 이미지 편집 정렬에서 큰 격차를 보인다.
7가지 지표에 대한 MMCORE와 Seedream 4.0의 인간 평가 비교 레이더 차트
기술 상세
MMCORE의 핵심 차별점은 MLLM의 잠재 공간을 확산 모델의 조건부 입력으로 직접 연결하면서도, 이를 시각적 의미 공간에 정렬시킨 점이다. 기존 MetaQueries 방식이 고정된 VLM을 사용한 것과 달리, MMCORE는 백본 전체를 언어 이해와 시각 생성을 위해 공동 학습(Joint Fine-tuning)한다. 이 과정에서 발생하는 언어 능력 저하를 방지하기 위해 2단계 학습 전략을 취하며, 1단계에서는 시각적 특징 정렬에 집중한다.
아키텍처적으로는 고정된 쿼리 예산(N=64)을 사용하여 가변적인 입력 컨텍스트를 고정 크기의 임베딩으로 압축한다. 이는 긴 프롬프트나 다중 이미지 입력 시에도 일정한 연산 비용을 유지하게 해준다. 또한 확산 헤드 학습 시 Independent Embedding Dropout 전략을 사용하여 모델이 텍스트와 시각 신호 중 어느 하나에만 편향되지 않고 두 정보를 균형 있게 활용하도록 유도했다.
구현 측면에서는 MMDiT의 Self-Attention 레이어를 재사용하여 이전 이미지의 VAE 특징을 참조하는 방식을 택했다. 이는 별도의 복잡한 어댑터 없이도 멀티 이미지 컨텍스트를 처리할 수 있게 하며, 학습 비용을 기존 통합 모델 대비 약 30% 수준으로 절감하는 효과를 가져왔다.
한계점
생성 성능을 높이기 위한 공격적인 미세 조정 과정에서 MLLM 본연의 순수 언어 이해 능력(VQA, OCR 등)이 일부 저하되는 '이해-생성 트레이드오프' 현상이 관찰되었다. 또한 현재 구조는 이해와 생성을 위해 별도의 시각 인코더를 사용하고 있어, 향후 이를 하나의 'Omni-Tokenizer'로 통합하여 효율성을 더 높일 필요가 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.