JoyAI-Image: 지시어 기반 이미지 편집을 위한 24B 규모 멀티모달 모델 공개

실용적 조언

복잡한 이미지 편집 시 객체 간의 관계를 명시하는 지시어를 사용하면 모델의 공간 이해 능력을 극대화할 수 있다.
HuggingFace에 공개된 가중치를 활용하여 특정 도메인의 이미지 편집 작업에 파인튜닝이 가능하다.

섹션별 상세

JoyAI-Image는 8B 규모의 MLLM과 16B 규모의 MMDiT를 결합한 구조이다. MLLM이 지시어를 해석하고 공간적 맥락을 파악하면 MMDiT가 이를 바탕으로 고품질 이미지를 생성하거나 편집한다. 24B에 달하는 대규모 파라미터 조합을 통해 복잡한 편집 지시사항도 정확하게 수행할 수 있는 성능을 확보했다. 이는 언어 이해와 시각적 생성을 분리하지 않고 하나의 시스템으로 통합하여 처리 효율을 높인 결과이다.

모델의 핵심 원리는 이해, 생성, 편집 사이의 폐쇄 루프 협업이다. 강력한 공간 이해 능력은 장면 파싱과 관계 그라운딩을 통해 정밀한 편집을 가능하게 하며 반대로 시점 변경과 같은 생성적 변환은 공간 추론을 위한 보완적 근거를 제공한다. 이 상호작용을 통해 단순한 픽셀 수정을 넘어 논리적인 이미지 변형이 가능해졌다. 이러한 순환 구조는 모델이 시각적 데이터의 깊이와 배치를 더 정확하게 인식하도록 돕는다.

지시어 기반 이미지 편집 기능은 사용자의 복잡한 요구사항을 분해하여 특정 영역에 정확히 적용한다. 장면 내 객체 간의 관계를 파악하는 Relational Grounding 기술을 활용하여 상대적 위치 기반 명령을 오차 없이 수행한다. 이는 기존 편집 모델들이 겪던 영역 지정의 모호성 문제를 해결하는 핵심 기술로 작용한다. 결과적으로 사용자는 추가적인 마스킹 작업 없이 텍스트만으로 정교한 이미지 수정을 완료할 수 있다.

용어 해설

멀티모달 거대 언어 모델(MLLM): — 텍스트뿐만 아니라 이미지, 오디오 등 다양한 형태의 데이터를 동시에 처리하고 이해할 수 있는 인공지능 모델이다. JoyAI-Image에서는 8B 규모의 MLLM이 사용자의 편집 지시어와 이미지의 공간적 맥락을 분석하는 두뇌 역할을 수행한다.
멀티모달 확산 트랜스포머(MMDiT): — 확산 모델과 트랜스포머 아키텍처를 결합하여 멀티모달 데이터를 처리하는 구조이다. 16B 파라미터를 가진 이 모듈은 MLLM의 해석 결과를 바탕으로 실제 픽셀을 생성하거나 수정하여 고품질의 이미지를 출력하는 역할을 담당한다.
관계적 그라운딩(Relational Grounding): — 이미지 내의 객체들이 서로 어떤 위치 관계에 있는지 파악하여 텍스트 설명과 매칭하는 기술이다. 이를 통해 특정 객체 옆이나 뒤에 있는 대상을 정확히 식별하고 해당 영역만 정밀하게 편집할 수 있도록 지원한다.

언급된 도구

JoyAI-Image-Edit추천링크

지시어 기반 이미지 편집 모델

JoyAI-Image추천링크

통합 멀티모달 파운데이션 모델

언급된 리소스

DemoJoyAI-Image-Edit HuggingFace

논문JoyAI-Image Paper

GitHubJoyAI-Image GitHub