핵심 요약
기존의 통합 멀티모달 모델은 크기가 너무 커서 모바일 기기에서 직접 실행하기 어려웠으나, Mobile-O는 1.6B의 작은 파라미터로도 고성능 이미지 생성과 이해를 동시에 달성했다. 특히 아이폰에서 실시간 수준의 속도를 기록하며 클라우드 의존 없는 온디바이스 멀티모달 AI의 실용성을 입증했다.
왜 중요한가
기존의 통합 멀티모달 모델은 크기가 너무 커서 모바일 기기에서 직접 실행하기 어려웠으나, Mobile-O는 1.6B의 작은 파라미터로도 고성능 이미지 생성과 이해를 동시에 달성했다. 특히 아이폰에서 실시간 수준의 속도를 기록하며 클라우드 의존 없는 온디바이스 멀티모달 AI의 실용성을 입증했다.
핵심 기여
Mobile Conditioning Projector (MCP) 설계
VLM의 마지막 레이어 특징들을 확산 모델의 조건부 입력으로 직접 연결하는 경량 프로젝터를 도입했다. depthwise-separable convolution과 레이어별 정렬 기법을 통해 연산 비용을 최소화하면서도 고품질의 제어 신호를 생성한다.
통합 멀티모달 사후 학습(Post-training) 체계
(생성 프롬프트, 이미지, 질문, 답변)으로 구성된 쿼드러플렛 데이터 형식을 도입하여 단일 학습 단계에서 이미지 생성과 시각적 이해 성능을 동시에 최적화하고 두 작업 간의 시너지를 유도한다.
온디바이스 실시간 성능 및 효율성 달성
iPhone 17 Pro 기준 512x512 이미지 생성에 약 3초, 시각적 이해 응답에 0.3초 미만의 지연 시간을 기록했다. 2GB 미만의 메모리 점유율로 모바일 환경에서의 실용적인 배포 가능성을 확인했다.
핵심 아이디어 이해하기
기존 통합 모델들은 텍스트와 이미지를 모두 처리하기 위해 거대한 Transformer 구조를 사용하거나 복잡한 쿼리 토큰 방식을 사용하여 모바일 기기에서 메모리 부족 문제를 겪는다. Mobile-O는 VLM이 이미 이미지를 잘 이해하고 있다는 점에 착안하여, VLM 내부 레이어의 특징값(hidden states)을 확산 모델의 가이드로 직접 활용하는 방식을 택했다.
이 과정에서 여러 레이어의 정보를 가중치 있게 합치는 Layerwise Fusion을 적용하고, 이를 가벼운 1D 컨볼루션으로 압축하여 전달한다. 이는 별도의 토큰 생성 단계 없이도 VLM의 지식을 생성 모델로 효율적으로 전이할 수 있게 한다. 결과적으로 모델 크기는 줄이면서도 시각적 이해와 생성이라는 두 마리 토끼를 잡을 수 있게 된다.
방법론
전체 구조는 FastVLM 기반의 인코더-디코더와 SANA 스타일의 선형 확산 트랜스포머(DiT)로 구성된다. 두 모듈은 Mobile Conditioning Projector(MCP)를 통해 연결되며, VLM의 마지막 K개 레이어 특징을 입력받아 확산 모델의 cross-attention 키와 값으로 변환한다.
MCP 내부에서는 레이어별 가중치 합산이 수행된다. [K개 레이어의 hidden states H(l) 입력 → softmax 기반 가중치 α(l) 계산 및 곱셈 → 융합된 특징 H_fuse 출력] 과정을 거쳐 여러 층의 시각적 정보를 하나로 통합한다. 이후 depthwise-separable 1D convolution을 통해 시퀀스 길이는 유지하면서 채널 정보를 압축하여 연산 효율을 극대화한다.
학습은 3단계로 진행된다. 1단계는 JourneyDB를 활용한 교차 모달 정렬, 2단계는 특정 도메인 약점 보완을 위한 지도 학습(SFT), 3단계는 105k개의 쿼드러플렛 데이터를 활용한 통합 사후 학습이다. 3단계에서는 [이미지-텍스트 쌍 입력 → cross-entropy loss 계산 → 텍스트 생성 최적화]와 [텍스트 프롬프트 입력 → flow-matching loss 계산 → 이미지 생성 최적화]를 동시에 수행한다.
주요 결과
GenEval 벤치마크에서 74%의 정확도를 기록하며 Show-O(69%)와 JanusFlow(63%)를 능가했다. 특히 1.6B 파라미터 규모에서 기존 SOTA 모델들보다 511% 높은 성능을 보이면서도 실행 속도는 최대 11배 빠르다. 시각적 이해 성능에서도 7개 주요 벤치마크 평균 점수에서 경쟁 모델들을 5.115.3% 차이로 앞섰다.
효율성 측면에서 iPhone 17 Pro에서 512x512 이미지 생성 시 3.0초, MacBook M2 Pro에서 4.0초의 지연 시간을 달성했다. 메모리 사용량은 2GB 미만으로 유지되어 실제 모바일 앱 환경에서 안정적으로 구동 가능하다. 또한 Ablation study를 통해 MCP의 레이어 융합 방식이 단일 레이어 사용 대비 생성 정확도를 약 1.7% 향상시킴을 확인했다.
기술 상세
Mobile-O는 FastVLM-0.5B와 SANA-600M을 결합한 1.6B 파라미터 구조를 가진다. 핵심인 MCP는 VLM의 마지막 4개 레이어 특징을 cosine-annealed 가중치로 융합하여 확산 모델의 컨디셔닝 신호로 사용한다. MCP의 Refine Block은 1D depthwise-separable convolution과 채널 어텐션을 결합하여 토큰 간의 정렬을 유지하면서도 2D 컨볼루션 대비 연산 복잡도를 O(k*dh) 수준으로 낮췄다.
통합 사후 학습 단계에서는 (p, x_img, q, a) 쿼드러플렛 형식을 사용하며, I2T 손실과 T2I 손실을 공동 최적화한다. 구현 측면에서 Apple 기기를 위해 MLX 및 CoreML 변환을 지원하며, 8-bit 가중치 양자화를 통해 메모리 점유율을 2GB 이하로 최적화하여 모바일 기기의 하드웨어 제약 조건을 충족했다.
한계점
현재 Mobile-O는 별도의 텍스트 전용 언어 모델을 사용하는 대신 VLM의 경량 LLM을 텍스트 인코더로 재사용한다. 이로 인해 텍스트 전용 모델 대비 텍스트 표현의 깊이나 복잡한 문맥 이해 능력이 다소 제한될 수 있다.
실무 활용
모바일 앱 내에서 클라우드 연결 없이 실시간 이미지 생성 및 시각적 질의응답 기능을 구현하는 데 즉시 활용 가능하다.
- 온디바이스 개인 비서의 시각적 응답 생성 및 상황 설명
- 모바일 사진 편집 앱의 텍스트 기반 객체 수정 및 스타일 변환
- 저지연 증강현실(AR) 콘텐츠 실시간 생성
- 오프라인 환경에서의 시각 장애인용 주변 상황 실시간 분석 도구
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.