JoyAI-Image: 통합 멀티모달 이해 및 생성을 통한 공간 지능의 각성

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

기존 멀티모달 모델들이 시각적 이해와 생성 능력을 개별적으로 다루던 한계를 극복하고, 공간 지능을 중심으로 두 능력을 통합했습니다. 이를 통해 단순한 이미지 생성을 넘어 물체의 위치, 거리, 시점 변화를 정밀하게 제어하는 차세대 시각 모델의 방향성을 제시합니다.

왜 중요한가

기존 멀티모달 모델들이 시각적 이해와 생성 능력을 개별적으로 다루던 한계를 극복하고, 공간 지능을 중심으로 두 능력을 통합했습니다. 이를 통해 단순한 이미지 생성을 넘어 물체의 위치, 거리, 시점 변화를 정밀하게 제어하는 차세대 시각 모델의 방향성을 제시합니다.

핵심 기여

공간 지능 강화 통합 아키텍처

공간적으로 강화된 MLLM과 MMDiT를 결합하여 시각적 이해, 텍스트-이미지 생성, 지시 기반 이미지 편집을 하나의 공유 인터페이스 내에서 수행하는 통합 모델을 구축했다.

OpenSpatial 데이터 엔진 및 데이터셋

3D 박스 중심의 패러다임을 활용해 300만 개의 정밀한 공간 이해 데이터를 자동 생성하는 OpenSpatial 엔진을 개발하고 OpenSpatial-3M 데이터셋을 공개했다.

양방향 협력 루프 메커니즘

강화된 시각 이해가 정밀한 편집을 가이드하고, 생성된 새로운 시점의 이미지가 다시 모델의 공간 추론 능력을 보강하는 선순환 구조를 확립했다.

고성능 텍스트 렌더링 및 편집

OCR 인식 기반의 캡셔닝 파이프라인을 통해 다국어 및 장문 텍스트 렌더링 성능을 SOTA 수준으로 끌어올렸으며, 정밀한 객체 및 카메라 제어 편집 기능을 구현했다.

핵심 아이디어 이해하기

기존의 시각 모델들은 이미지 내 물체들이 '어디에' 있고 '얼마나 떨어져 있는지'와 같은 물리적 공간 관계를 이해하는 데 어려움을 겪어왔습니다. JoyAI-Image는 이를 해결하기 위해 모델의 '인지'를 담당하는 MLLM에 3D 공간 정보를 직접 주입하는 방식을 선택했습니다. 마치 사람이 물체를 볼 때 단순히 색상과 형태만 보는 것이 아니라 입체적인 위치를 파악하는 것과 같은 원리입니다.

구체적으로는 Attention 메커니즘을 통해 텍스트 지시문과 이미지의 픽셀 정보를 결합할 때, 물체의 3D 경계 상자(Bounding Box) 정보를 함께 학습시킵니다. 이를 통해 모델은 '왼쪽으로 45도 회전'이나 '물체를 1미터 뒤로 이동'과 같은 정밀한 공간 제어 명령을 수학적으로 이해할 수 있게 됩니다.

결과적으로 이 모델은 단순한 이미지 생성을 넘어, 생성된 이미지가 물리적으로 타당한지 스스로 검증하고 다시 그 정보를 바탕으로 더 정확한 시각적 추론을 수행하는 '공간 지능'을 갖추게 되었습니다. 이는 AI가 단순한 그림 그리기를 넘어 실제 물리 세계의 법칙을 배우는 '세계 모델'로 진화하는 중요한 단계입니다.

방법론

JoyAI-Image는 공간적으로 강화된 MLLM(Qwen3-VL 기반)을 인지 엔진으로, MMDiT를 생성 엔진으로 사용하는 듀얼 스트림 구조를 채택했습니다. MLLM은 사용자 지시를 해석하고 공간적 제어 신호를 생성하며, MMDiT는 이 신호를 바탕으로 잠재 공간(Latent Space)에서 이미지를 합성합니다.

학습 과정은 3단계 커리큘럼을 따릅니다. 1단계에서는 저해상도(208p)에서 기본적인 이미지-텍스트 정렬을 학습하고, 2단계(512p)에서는 고품질 데이터 필터링을 통해 시각적 품질을 높입니다. 마지막 3단계(1024p)에서는 3D 공간 데이터와 멀티뷰 데이터를 주입하여 정밀한 공간 제어 능력을 완성합니다.

수학적으로는 Flow Matching 기법을 사용합니다. [노이즈 z0와 데이터 z1 사이의 선형 보간 경로 zt를 입력으로] → [신경망 fθ가 해당 지점의 속도 벡터를 예측하는 연산을 수행해] → [예측된 벡터와 실제 속도(z1-z0) 사이의 오차를 최소화하는 결과를 얻고] → [이 값이 작아질수록 모델은 노이즈를 깨끗한 이미지로 변환하는 최적의 경로를 학습하게 됩니다].

주요 결과

JoyAI-Image는 공간 이해 벤치마크인 VSI, AllAngles 등에서 평균 64.4점을 기록하며 기존 오픈소스 모델들을 압도하고 Gemini-2.5-Pro와 대등한 성능을 보였습니다. 특히 3DSR 및 CV-3D와 같은 정밀 공간 추론 작업에서 강점을 나타냈습니다.

이미지 생성 및 텍스트 렌더링 측면에서도 LongText-Bench에서 영어와 중국어 모두 0.963의 높은 점수를 획득하여 SOTA 성능을 달성했습니다. 이는 복잡한 레이아웃과 장문 텍스트가 포함된 이미지 생성에서 탁월한 정확도를 의미합니다.

이미지 편집 실험에서는 GEdit 및 SpatialEdit-Bench에서 객체 이동, 회전, 카메라 시점 변경 등 공간적 조작의 정확도가 기존 모델 대비 크게 향상되었음을 입증했습니다. 특히 카메라 제어 오차를 기존 대비 약 40% 이상 감소시켰습니다.

기술 상세

모델 아키텍처는 Qwen3-VL-8B를 백본으로 하는 MLLM과 16B 파라미터 규모의 MMDiT로 구성됩니다. MMDiT 내부에서는 MSRoPE 대신 표준 MRoPE를 사용하여 회전 위치 임베딩의 효율성을 높였으며, Wan-2.1-VAE를 통해 고주파 세부 정보를 보존하는 잠재 공간 압축을 수행합니다.

공간 데이터 합성을 위해 개발된 OpenSpatial 엔진은 3D 리프팅(Lifting) 메커니즘을 사용하여 일반 웹 비디오를 3D 박스 기반의 학습 데이터로 변환합니다. 이를 통해 수동 라벨링 없이도 대규모의 공간 추론 QA 쌍을 확보할 수 있었습니다.

학습 전략으로는 Flow-GRPO 프레임워크를 도입하여 강화학습 기반의 최적화를 진행했습니다. 미적 점수(Aesthetic Score)와 텍스트-이미지 정렬 점수를 보상으로 사용하여 모델이 더 시각적으로 매력적이면서도 지시문에 충실한 이미지를 생성하도록 유도했습니다.

한계점

논문은 주로 정적인 이미지와 공간 관계에 집중하고 있으며, 복잡한 동적 비디오 생성이나 실시간 물리 상호작용에 대한 한계는 향후 연구 과제로 남겨두고 있습니다.

실무 활용

정밀한 공간 제어가 필요한 이미지 편집, 고품질 다국어 광고 디자인, 로봇 시뮬레이션을 위한 가상 환경 구축 등 다양한 실무 분야에 즉시 활용 가능합니다.

전자상거래 제품 사진의 구도 및 배경을 유지하면서 물체 위치만 정밀하게 변경
다국어 텍스트가 포함된 고해상도 마케팅 포스터 및 웹 배너 자동 생성
로봇 학습을 위한 다양한 카메라 시점의 합성 데이터 생성 및 시각적 추론 보조
사용자 지시에 따른 정밀한 인테리어 디자인 수정 및 가구 배치 시뮬레이션

코드 공개 여부: 공개

코드 저장소 보기

키워드

MLLM(멀티모달 대형 언어 모델)MMDiT(멀티모달 확산 트랜스포머)Spatial Intelligence(공간 지능)Image Editing(이미지 편집)3D Grounding(3D 그라운딩)

코드 예제

python

L = Et,z0,z1,y [||fθ(zt, y, t) - (z1 - z0)||2]

JoyAI-Image 모델 학습에 사용된 Flow Matching 목적 함수