문장 속 이미지: Unified Visual Generation을 위한 Interleaved Instructions 확장

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

다중 이미지 지시를 처리하는 기존 접근은 이미지와 텍스트를 구조적으로 분리해 긴 시퀀스에서의 바인딩을 어렵게 만든다. Inset은 이미지를 텍스트의 native vocabulary로 삽입해 해당 시퀀스의 위치적 맥락을 활용, Attribute binding의 정확성을 높이고 입력 이미지 수가 늘어도 성능 차이가 확대되도록 설계되었다. 또한 15M 개의 고품질 인터리브드 샘플 데이터 엔진과 InterleaveBench를 제시해 복잡한 다중 이미지 지시를 평가하는 표준을 마련한다.

왜 중요한가

다중 이미지 지시를 처리하는 기존 접근은 이미지와 텍스트를 구조적으로 분리해 긴 시퀀스에서의 바인딩을 어렵게 만든다. Inset은 이미지를 텍스트의 native vocabulary로 삽입해 해당 시퀀스의 위치적 맥락을 활용, Attribute binding의 정확성을 높이고 입력 이미지 수가 늘어도 성능 차이가 확대되도록 설계되었다. 또한 15M 개의 고품질 인터리브드 샘플 데이터 엔진과 InterleaveBench를 제시해 복잡한 다중 이미지 지시를 평가하는 표준을 마련한다.

핵심 기여

Native interleaved modeling

Images iN SEnTences(InSET)은 이미지를 텍스트 지시내의 native vocabulary로 삽입해 시맨틱 슬롯에 직접 바인딩하는 인터리브드 입력 형식을 제안한다. 이를 통해 텍스트와 다수 이미지 간의 긴 거리 의존성 문제를 완화하고, Transformer의 컨텍스트 로컬리티를 활용해 고해상도 생성 및 편집에서의 객체 바인딩 정확성을 높인다.

Scalable interleaved data engine

이미지/비디오 데이터에서 15M 개의 고품질 인터리브드 샘플을 자동으로 구성하는 파이프라인을 제안한다. 정합도 높은 글로벌 캡션, 인스턴스 마스크 및 객체 캡션을 생성하고, LLM으로 인터리브드 지시를 구성하여 시맨틱 매핑을 명확히 한다.

InterleaveBench 구축

다중 이미지와 복잡한 인터리브드 지시를 평가하는 InterleaveBench를 제안한다. 다중 대상의 아이덴티티 보존과 시맨틱 정렬을 독립적으로 평가하는 두 가지 지표(이미지 일관성, 텍스트 정합성)와 인간-LLM 판정을 결합하는 이중 평가 체계를 도입한다.

실험적 성과 및 확장성

Inset은 오픈 소스 baselines를 상회하는 이미지 일관성 및 텍스트 정합성을 달성하며, 입력 이미지 수가 증가할수록 성능 격차가 커진다. 또한 텍스트 지시와 시각 입력을 함께 활용하는 이미지 편집 태스크로의 확장성을 보인다.

핵심 아이디어 이해하기

출발점: 전통적 다중 이미지 생성 모델은 텍스트와 이미지를 분리해 처리하고, 인덱스 기반의 참조를 통해 시각 입력을 바인딩한다. 이는 긴 입력에서 속성-대상 매핑이 불안정해지는 한계를 낳는다. 해결 원리: 이미지를 텍스트 내의 토큰처럼 다루고 semantic slots에 직접 배치함으로써 텍스트 설명과 시각 대상의 위치적 일치를 강화한다. 이로써 컨텍스트 로컬리티를 활용해 복합 지시에서도 정확한 객체 바인딩이 가능해지며, VLM/LLM 기반의 확장 데이터 엔진으로 대규모 학습 신호를 확보한다. 달라지는 점: ViT 임베딩만 사용하고 VAE latent를 제거해 이미지-붙여넣기(image-pasting) 현상을 억제하고, 텍스트-이미지 간 균형 제어를 위한 두 단계 가이던스 및 null_embedding 기반의 분류-프리 가이던스로 생성 품질과 지시 준수를 동시에 향상시킨다.

방법론

Native Interleaved Formulation: 입력으로 주어진 이미지들을 텍스트 내의 토큰으로 삽입하고 semantic slots에 매핑한다. 이를 통해 long-range dependency 문제를 감소시키고 텍스트 부족 상황에서도 시각 대상의 속성/관계를 정확히 바인딩한다. 2) Two-branch Mixture-of-Transformer 아키텍처: 이해(understanding) 분기와 생성(generation) 분기로 구성되며, 입력으로 semantic ViT 임베딩만 사용하고 VAE latent는 제거한다. 3) Inference 전략: 텍스트-이미지 밸런스를 조정하기 위한 두 단계 가이던스와 classifier-free guidance를 적용한다. ϵˆbal = ϵθ(zt, ∅, cv) + s1 · (ϵθ(zt, ct, cv) − ϵθ(zt, ∅, cv)); ϵ˜θ = ϵθ(zt, ∅, ∅) + s2 · (ˆϵbal − ϵθ(zt, ∅, ∅)). 해설: s1은 텍스트 지시의 영향을 강화하고 s2는 글로벌 가이던스 강도를 조절한다. 4) Scalable Interleaved Data Engine: (i) Global Captioning: Doubao-Seed-1.6-Vision 등 VLM으로 전반적 서사를 생성, (ii) Fine-grained Processing: 객체 DETECTION → Bounding Boxes/Labels, SAM으로 마스크, DAM으로 객체 캡션 생성, (iii) LLM-driven Interleaved Construction: 글로벌 캡션과 객체 트리플렛을 기반으로 인터리브드 캡션과 매핑을 JSON으로 산출, 3–8 이미지 샘플을 포함한 10M 샘플 생성. 5) Video 확장: 프레임 간 장거리 대응으로 동일 엔티티를 식별하고 상태 변화를 반영한 인터리브드 지시를 생성하고, 원본 프레임의 시각 토큰을 크롭해 학습에 사용.

주요 결과

주요 벤치마크 결과: InterleaveBench에서 Inset의 이미지 일관성/텍스트 정합성은 5개 객체 설정까지 모두 오차범위 밖의 우수한 성능을 보였고, 오픈 소스 모델 대비 우수하였다. 표 1에 따르면 Inset은 Two Obj./Three Obj./Four Obj./Five Obj./Overall에서 이미지 일관성 0.93/0.94/0.90/0.94/0.93, 텍스트 정합성 0.82/0.78/0.72/0.71/0.75로 나타났다. 특히 Five Objects 설정에서의 차이가 두드러진다. Ablation 연구: Baseline 0.61(전체)에서 Image First 0.86(이미지 일관성)/0.66(텍스트 정합성)로 향상되며, w/o Video-based Data 0.91/0.60, w/ VAE Feature 0.82/0.56로 하향했다. Ours(Inset)는 0.93(이미지 일관성)/0.82(텍스트 정합성)로 최상위를 기록했다. 학습/추론 세부: 50k 스텝, 최대 해상도 1024, 시퀀스 길이 ~30k, 학습 데이터 구성 비율 0.2:0.2:0.1:0.5, 최적화: AdamW β1=0.9, β2=0.95, 학습률 2.5e-5. 추론 시 텍스트 의존성 증가 및 VAE 대체로 인한 입력-출력 품질 향상을 확인할 수 있다. 편집 태스크: 입력 이미지가 포함되면 더 정밀한 편집이 가능하고, 특정 시각적 특성(브랜드 로고, 특정 의류 디자인 등)의 재현이 개선된다.

기술 상세

아키텍처: InSET은 이해 분기와 생성 분기가 결합된 Mixture-of-Transformer 구조로, VAE latent를 제거하고 semantic ViT 임베딩만 사용한다. 2) 핵심 메커니즘: 이미지 토큰을 텍스트 내의 슬롯에 매핑해 텍스트-이미지 간 직접 바인딩을 수행하며, IDs/Boxes/Labels, Instance Masks, Object Captions를 통해 객체 수준 정보를 구성한다. 3) 차별점: Indirect-query 기반의 기존 방법과 달리 이미지 토큰을 내재화하고, VAE 기반 인코더의 이미지-붙여넣기 문제를 피한다. 4) 구현/학습: BAGEL에서 파생된 초기화, 데이터 엔진 구성, 학습 스케줄 및 해상도 제약 등을 포함한다(해당 내용은 논문에 제시된 수치와 구성을 따른다).

실무 활용

이미지를 텍스트 토큰으로 취급하는 방식은 다중 이미지 지시를 통한 고정밀 생성과 텍스트-이미지 편집의 연결 고리를 제공한다. 대규모 인터리브드 데이터 엔진과 인터리브드 벤치마크를 통해 현실 세계의 복잡한 시나리오에서도 안정적으로 작동한다.

다중 이미지 지시를 활용한 텍스트-주도형 멀티모달 콘텐츠 생성
고정밀 이미지 편집(특정 시각 특징을 정확히 반영하는 텍스트-지시 기반 편집)
스토리텔링형 비주얼 시퀀스 생성 및 편집
데이터 증강을 위한 인터리브드 샘플 생성(비디오-프레임 간 상태 변화 반영)

코드 공개 여부: 미확인

키워드

multimodal-language-models(멀티모달-언어모델)image-generation(이미지 생성)interleaved-instructions(인터리브드 지시)transformers(트랜스포머)visual-features(비주얼 피처)contextual-locality(맥락적 지역성)image-editing(이미지 편집)InterleaveBench(인터리브벤치)