핵심 요약
통합 멀티모달 모델(Unified Multimodal Models)은 단일 아키텍처 내에서 시각적 콘텐츠를 이해하고 생성할 수 있습니다. 그러나 기존 모델들은 데이터 소모가 크고 엣지 기기(Edge Devices)에 배포하기에는 너무 무겁습니다. 본 논문에서는 모바일 기기에 통합 멀티모달 지능을 제공하는 소형 비전-언어-확산(Vision-Language-Diffusion) 모델인 Mobile-O를 제안합니다. 핵심 모듈인 모바일 컨디셔닝 프로젝터(Mobile Conditioning Projector, MCP)는 깊이별 분리 컨볼루션(Depthwise-Separable Convolutions)과 레이어별 정렬(Layerwise Alignment)을 사용하여 비전-언어 특징을 확산 생성기(Diffusion Generator)와 융합합니다. 이 설계는 최소한의 계산 비용으로 효율적인 교차 모달 컨디셔닝(Cross-modal Conditioning)을 가능하게 합니다. Mobile-O는 수백만 개의 샘플만으로 학습되었으며, 생성 프롬프트, 이미지, 질문, 답변으로 구성된 새로운 쿼드러플릿(Quadruplet) 형식으로 사후 학습되어 시각적 이해와 생성 능력을 동시에 향상시켰습니다. 효율성에도 불구하고 Mobile-O는 다른 통합 모델과 비교하여 경쟁력 있거나 우수한 성능을 달성했으며, GenEval에서 74%를 기록하고 Show-O 및 JanusFlow보다 각각 5%, 11% 더 나은 성능을 보이면서 속도는 6배, 11배 더 빠릅니다. 시각적 이해 측면에서 Mobile-O는 7개 벤치마크 평균에서 이들보다 각각 15.3%, 5.1% 앞섰습니다. 아이폰에서 512x512 이미지를 생성하는 데 약 3초밖에 걸리지 않는 Mobile-O는 엣지 기기에서 실시간 통합 멀티모달 이해 및 생성을 위한 최초의 실용적인 프레임워크를 구축했습니다. 우리는 Mobile-O가 클라우드 의존성 없이 전체적으로 온디바이스에서 실행되는 실시간 통합 멀티모달 지능에 대한 향후 연구를 용이하게 하기를 바랍니다. 우리의 코드, 모델, 데이터셋 및 모바일 애플리케이션은 공개되어 있습니다.
핵심 기여
모바일 컨디셔닝 프로젝터(MCP) 개발
깊이별 분리 컨볼루션과 레이어별 정렬을 활용하여 비전-언어 특징을 확산 모델에 효율적으로 주입하는 경량 프로젝션 모듈.
쿼드러플릿(Quadruplet) 데이터 포맷 도입
생성 프롬프트, 이미지, 질문, 답변을 하나의 단위로 묶은 데이터 형식을 통해 이해와 생성 능력을 동시에 최적화하는 사후 학습 방식.
엣지 기기 최적화 및 실시간 성능 달성
기존 통합 모델 대비 최대 11배 빠른 추론 속도를 확보하여 아이폰에서 3초 내외의 이미지 생성 및 이해 성능 구현.
방법론
비전-언어 모델과 확산 생성기를 결합한 아키텍처 기반. 핵심인 MCP는 깊이별 분리 컨볼루션을 통해 파라미터 수를 줄이면서 레이어별 정렬로 멀티모달 특징 융합. 수백만 개의 데이터셋과 쿼드러플릿 구조의 데이터로 파인튜닝 수행.
주요 결과
GenEval 벤치마크 74% 기록. Show-O 대비 6배, JanusFlow 대비 11배 빠른 추론 속도. 시각적 이해 7개 벤치마크 평균 점수에서 Show-O 대비 15.3%, JanusFlow 대비 5.1% 우세. 아이폰에서 512x512 해상도 이미지 생성 시 약 3초 소요.
시사점
클라우드 의존성 없는 온디바이스 AI 구현으로 개인정보 보호와 실시간 응답성 강화. 경량화된 프로젝터 설계 방식은 향후 대형 모델의 모바일 이식 연구에 핵심 참조 모델로 활용 가능.
키워드
섹션별 상세
모바일 컨디셔닝 프로젝터(MCP) 개발
쿼드러플릿(Quadruplet) 데이터 포맷 도입
엣지 기기 최적화 및 실시간 성능 달성
AI 요약 · 북마크 · 개인 피드 설정 — 무료