핵심 요약
본 논문에서는 멀티모달 이해 및 생성을 위한 효과적이고 길이 적응형(length-adaptive)인 옴니 확산 모델(omni diffusion model)인 LLaDA-o를 제안합니다. LLaDA-o는 텍스트 이해를 위한 이산 마스크 확산(discrete masked diffusion)과 시각적 생성을 위한 연속 확산(continuous diffusion)을 분리하는 동시에, 고정된 조건에 대한 중복 계산을 줄여주는 공유되고 단순하며 효율적인 어텐션 백본(attention backbone)을 통해 이들을 결합하는 혼합 확산(Mixture of Diffusion, MoD) 프레임워크를 기반으로 구축되었습니다. MoD를 바탕으로, 아키텍처 변경 없이 멀티모달 환경에서 유연한 길이의 디코딩을 가능하게 하는 데이터 중심 길이 적응 전략(data-centric length adaptation strategy)을 추가로 도입했습니다. 광범위한 실험을 통해 LLaDA-o가 멀티모달 이해 및 생성 벤치마크에서 옴니 확산 모델 중 최고 수준의 성능(SOTA)을 달성했음을 보여주며, 텍스트-이미지 생성 부문에서 DPG-Bench 87.04점을 기록하여 통합 옴니 확산 모델링의 효과를 입증했습니다. 코드는 지정된 URL에서 확인할 수 있습니다.
핵심 기여
혼합 확산(MoD) 프레임워크 제안
텍스트 이해를 위한 이산 마스크 확산과 시각 생성을 위한 연속 확산을 단일 모델 내에서 효율적으로 결합하는 구조를 설계했다.
효율적인 어텐션 백본 설계
공유된 어텐션 구조를 활용하여 고정된 조건에서 발생하는 중복 계산을 제거하고 추론 성능을 최적화했다.
데이터 중심 길이 적응 전략 도입
모델 아키텍처의 수정 없이도 멀티모달 환경에서 가변적인 출력 길이를 처리할 수 있는 유연한 디코딩 전략을 구현했다.
통합 옴니 확산 모델링 입증
이해와 생성 작업을 하나의 확산 프로세스로 통합하여 멀티모달 벤치마크에서 SOTA 성능을 기록하며 통합 모델링의 유효성을 증명했다.
방법론
LLaDA-o는 텍스트 처리를 위한 이산 마스크 확산(Discrete Masked Diffusion)과 이미지 생성을 위한 연속 확산(Continuous Diffusion)을 혼합 확산(Mixture of Diffusion) 프레임워크로 통합했습니다. 공유된 어텐션 백본을 통해 두 모달리티 간의 상호작용을 관리하며, 데이터 중심의 길이 적응 전략을 사용하여 아키텍처 변경 없이도 다양한 출력 길이에 대응하는 가변 길이 디코딩을 수행합니다.
주요 결과
LLaDA-o는 멀티모달 이해 및 생성 벤치마크에서 기존 옴니 확산 모델들을 능가하는 성능을 보였습니다. 특히 텍스트-이미지 생성 성능 지표인 DPG-Bench에서 87.04점을 기록하며, 통합된 확산 모델링이 개별 작업뿐만 아니라 복합적인 멀티모달 작업에서도 뛰어난 효율성을 가짐을 입증했습니다.
시사점
텍스트 이해와 이미지 생성을 단일 확산 모델로 통합함으로써 멀티모달 시스템의 복잡성을 획기적으로 낮출 수 있습니다. 특히 가변 길이 대응 능력은 실제 서비스 환경에서 다양한 사용자 요구사항에 유연하게 대처할 수 있는 기술적 토대를 제공하며, 효율적인 어텐션 구조는 추론 비용 절감에 기여합니다.
키워드
섹션별 상세
혼합 확산(MoD) 프레임워크 제안
효율적인 어텐션 백본 설계
데이터 중심 길이 적응 전략 도입
통합 옴니 확산 모델링 입증
AI 요약 · 북마크 · 개인 피드 설정 — 무료