핵심 요약
기존 통합 멀티모달 모델은 고품질의 텍스트-이미지 쌍 데이터가 부족하여 학습 효율이 낮았으나, 이 논문은 이미지 데이터만으로도 강력한 시각적 이해와 생성 능력을 갖출 수 있음을 증명했다. 단 1050시간의 GPU 학습만으로 기존 7B 모델들을 뛰어넘는 성능을 기록하며, 데이터 수집 비용과 연산 자원을 획기적으로 줄이는 새로운 학습 패러다임을 제시한다.
왜 중요한가
기존 통합 멀티모달 모델은 고품질의 텍스트-이미지 쌍 데이터가 부족하여 학습 효율이 낮았으나, 이 논문은 이미지 데이터만으로도 강력한 시각적 이해와 생성 능력을 갖출 수 있음을 증명했다. 단 1050시간의 GPU 학습만으로 기존 7B 모델들을 뛰어넘는 성능을 기록하며, 데이터 수집 비용과 연산 자원을 획기적으로 줄이는 새로운 학습 패러다임을 제시한다.
핵심 기여
IOMM 프레임워크
텍스트-이미지 쌍 데이터에 대한 의존도를 낮추고 이미지 전용 데이터를 활용하는 효율적인 2단계 학습 구조를 도입함.
Residual Query Adapter (RQA)
고정된 멀티모달 거대 언어 모델(MLLM)을 생성 작업에 적합하도록 최소한의 파라미터(29M)로 조정하는 경량 어댑터를 설계함.
Masked Image Modeling (MIM) 전략
이미지 패치의 일부를 마스킹하고 복원하는 방식을 통해 모델이 이미지의 구조적 특징과 시각적 사전 지식을 효과적으로 학습하게 함.
데이터 효율성 입증
3.6B 규모의 모델을 약 1000시간의 GPU 시간만으로 학습시켜 GenEval 0.89라는 SOTA 성능을 달성하며 높은 가성비를 증명함.
핵심 아이디어 이해하기
기존의 통합 멀티모달 모델(UMM)은 텍스트와 이미지가 짝지어진 데이터를 통해 시각적 개념을 학습한다. 하지만 고품질의 텍스트 설명이 포함된 데이터셋은 구축 비용이 매우 비싸고 양도 제한적이다. 이는 모델이 충분한 시각적 사전 지식을 쌓는 데 병목 현상으로 작용하며, 결과적으로 복잡한 프롬프트를 따르는 능력이 저하되는 원인이 된다.
IOMM은 텍스트 없이 이미지 그 자체에 풍부한 의미 정보가 담겨 있다는 점에 주목함. 이를 위해 Masked Image Modeling(MIM) 기법을 도입하여 이미지의 85%를 가리고 나머지 15%만으로 전체 이미지를 복원하도록 모델을 훈련시킴. 이 과정에서 모델은 이미지 내 객체 간의 관계와 구조를 스스로 파악하게 되며, 이는 텍스트 설명 없이도 강력한 시각적 표현력을 갖추게 하는 핵심 원리가 됨.
또한, 이미 학습된 MLLM의 지식을 보존하면서 생성 능력을 추가하기 위해 Residual Query Adapter를 사용함. 이는 거대한 MLLM 가중치를 직접 수정하지 않고, 생성에 필요한 조건값만 살짝 보정하여 전달하는 방식임. 결과적으로 적은 데이터와 연산량으로도 텍스트 프롬프트에 정확히 부합하는 고화질 이미지를 생성할 수 있게 됨.
방법론
전체 프레임워크는 이미지 전용 사전 학습(Stage 1)과 혼합 데이터 미세 조정(Stage 2)으로 구성됨. 사전 학습 단계에서는 텍스트 없이 이미지 데이터만 사용하며, 미세 조정 단계에서 소량의 고품질 텍스트-이미지 쌍을 섞어 지시어 이행 능력을 강화함.
Residual Query Adapter(RQA)는 256개의 학습 가능한 쿼리 토큰을 사용하여 고정된 MLLM의 입력 조건을 정제함. 입력 이미지 패치 c_img와 보조 프롬프트 c_aux가 주어질 때, Cross-Attention을 통해 태스크 특화 변환을 수행하여 '잔차 쿼리'를 생성하고 이를 원래 시퀀스에 결합함. [입력 토큰 시퀀스 → Cross-Attention 연산 → 정제된 조건 벡터 출력 → 생성 모델의 가이드로 활용] 순으로 작동하여 도메인 불일치 문제를 해결함.
Masked Image Modeling(MIM)은 이미지 패치 토큰 c_img에 베르누이 분포 기반의 바이너리 마스크 M을 적용함. c_img ⊙ M 연산을 통해 일부 패치를 제거함으로써 모델이 가려진 부분을 추론하도록 강제함. [원본 이미지 패치 → 랜덤 마스킹 → 희소 패치 입력 → 전체 이미지 복원 → 시각적 사전 지식 습득] 과정을 통해 단순 복제(Identity Mapping)에 빠지는 것을 방지하고 견고한 시각적 표현을 학습함.
주요 결과
메인 벤치마크인 GenEval에서 IOMM-B(3.6B) 모델은 0.89점을 기록하여 BAGEL-7B(0.82)와 BLIP3-o-4B(0.84)를 능가함. 상식 추론 능력을 측정하는 WISE 벤치마크에서도 0.55점을 획득하여 기존 모델들(0.50~0.52) 대비 우수한 성능을 보임.
Ablation Study 결과, RQA를 추가했을 때 GenEval 점수가 0.44에서 0.82로 급상승했으며, MIM 전략을 결합했을 때 최종적으로 0.88까지 향상됨이 확인됨. 특히 마스크 비율이 0.45~0.85 사이일 때 가장 좋은 성능을 보였으며, 너무 높은 비율(0.95)은 정보 손실로 인해 성능이 저하됨.
학습 효율성 측면에서 IOMM-B는 약 1050 H800 GPU 시간 만에 학습을 마쳤으며, 이는 수만 시간의 GPU 자원을 소모하는 일반적인 UMM 학습 방식 대비 압도적으로 경제적임.
실무 활용
텍스트-이미지 쌍 데이터가 부족한 특정 도메인에서 이미지 데이터만으로 고성능 생성 모델을 구축할 때 매우 유용함. 적은 연산 자원으로도 SOTA급 성능을 낼 수 있어 중소 규모 연구실이나 기업에서도 활용 가능함.
- 데이터가 부족한 특수 목적용 이미지 생성 모델 학습
- 기존 MLLM의 이해 능력을 유지하면서 이미지 편집/생성 기능 추가
- 저비용 고효율 멀티모달 통합 모델 구축
- 제로샷 이미지 편집 서비스 개발
기술 상세
IOMM 아키텍처는 고정된 MLLM(InternVL3-2B)과 확산 기반 생성 모델(FLUX 기반 MM-DiT)을 결합한 구조임. MLLM은 시각적 특징 추출기로 작동하며, 생성 모델은 Flow Matching(FM) 목적 함수를 사용하여 학습됨.
핵심 메커니즘인 RQA는 단 29M의 파라미터만으로 구성되어 MLLM의 출력을 생성 태스크에 맞게 정렬함. 이는 MLLM 전체를 파인튜닝할 때 발생하는 막대한 연산 비용과 치명적 망각(Catastrophic Forgetting) 문제를 동시에 해결하는 파라미터 효율적 접근법임.
학습 목적 함수는 Flow Matching 손실을 사용함. 모델은 노이즈 z에서 원본 이미지 x로 가는 일정한 속도의 벡터 필드를 학습하며, RQA와 MLLM을 거쳐 생성된 최종 잠재 조건값 h를 가이드로 활용함.
사전 학습 시 Megalith-10M과 text-to-image-2M 데이터셋을 활용함. 미세 조정 단계에서 이미지 전용 데이터와 쌍 데이터의 비율을 0.5로 섞었을 때 가장 안정적이고 높은 성능을 기록함.
한계점
IOMM-L 모델의 경우 학습 자원 제한으로 인해 IOMM-B보다 적은 에포크만 학습되어 잠재력을 완전히 발휘하지 못했다는 점이 언급됨. 또한 사전 학습 데이터셋이 1024 해상도를 지원하지 않아 고해상도 사전 학습을 수행하지 못함.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료