TL;DR
다중 이미지 지시를 처리하는 기존 접근은 이미지와 텍스트를 구조적으로 분리해 긴 시퀀스에서의 바인딩을 어렵게 만든다. Inset은 이미지를 텍스트의 native vocabulary로 삽입해 해당 시퀀스의 위치적 맥락을 활용, Attribute binding의 정확성을 높이고 입력 이미지 수가 늘어도 성능 차이가 확대되도록 설계되었다. 또한 15M 개의 고품질 인터리브드 샘플 데이터 엔진과 InterleaveBench를 제시해 복잡한 다중 이미지 지시를 평가하는 표준을 마련한다.
왜 중요한가
다중 이미지 지시를 처리하는 기존 접근은 이미지와 텍스트를 구조적으로 분리해 긴 시퀀스에서의 바인딩을 어렵게 만든다. Inset은 이미지를 텍스트의 native vocabulary로 삽입해 해당 시퀀스의 위치적 맥락을 활용, Attribute binding의 정확성을 높이고 입력 이미지 수가 늘어도 성능 차이가 확대되도록 설계되었다. 또한 15M 개의 고품질 인터리브드 샘플 데이터 엔진과 InterleaveBench를 제시해 복잡한 다중 이미지 지시를 평가하는 표준을 마련한다.
핵심 기여
Native interleaved modeling
Images iN SEnTences(InSET)은 이미지를 텍스트 지시내의 native vocabulary로 삽입해 시맨틱 슬롯에 직접 바인딩하는 인터리브드 입력 형식을 제안한다. 이를 통해 텍스트와 다수 이미지 간의 긴 거리 의존성 문제를 완화하고, Transformer의 컨텍스트 로컬리티를 활용해 고해상도 생성 및 편집에서의 객체 바인딩 정확성을 높인다.
Scalable interleaved data engine
이미지/비디오 데이터에서 15M 개의 고품질 인터리브드 샘플을 자동으로 구성하는 파이프라인을 제안한다. 정합도 높은 글로벌 캡션, 인스턴스 마스크 및 객체 캡션을 생성하고, LLM으로 인터리브드 지시를 구성하여 시맨틱 매핑을 명확히 한다.
InterleaveBench 구축
다중 이미지와 복잡한 인터리브드 지시를 평가하는 InterleaveBench를 제안한다. 다중 대상의 아이덴티티 보존과 시맨틱 정렬을 독립적으로 평가하는 두 가지 지표(이미지 일관성, 텍스트 정합성)와 인간-LLM 판정을 결합하는 이중 평가 체계를 도입한다.
실험적 성과 및 확장성
Inset은 오픈 소스 baselines를 상회하는 이미지 일관성 및 텍스트 정합성을 달성하며, 입력 이미지 수가 증가할수록 성능 격차가 커진다. 또한 텍스트 지시와 시각 입력을 함께 활용하는 이미지 편집 태스크로의 확장성을 보인다.
핵심 아이디어 이해하기
출발점: 전통적 다중 이미지 생성 모델은 텍스트와 이미지를 분리해 처리하고, 인덱스 기반의 참조를 통해 시각 입력을 바인딩한다. 이는 긴 입력에서 속성-대상 매핑이 불안정해지는 한계를 낳는다. 해결 원리: 이미지를 텍스트 내의 토큰처럼 다루고 semantic slots에 직접 배치함으로써 텍스트 설명과 시각 대상의 위치적 일치를 강화한다. 이로써 컨텍스트 로컬리티를 활용해 복합 지시에서도 정확한 객체 바인딩이 가능해지며, VLM/LLM 기반의 확장 데이터 엔진으로 대규모 학습 신호를 확보한다. 달라지는 점: ViT 임베딩만 사용하고 VAE latent를 제거해 이미지-붙여넣기(image-pasting) 현상을 억제하고, 텍스트-이미지 간 균형 제어를 위한 두 단계 가이던스 및 null_embedding 기반의 분류-프리 가이던스로 생성 품질과 지시 준수를 동시에 향상시킨다.
방법론
- Native Interleaved Formulation: 입력으로 주어진 이미지들을 텍스트 내의 토큰으로 삽입하고 semantic slots에 매핑한다. 이를 통해 long-range dependency 문제를 감소시키고 텍스트 부족 상황에서도 시각 대상의 속성/관계를 정확히 바인딩한다. 2) Two-branch Mixture-of-Transformer 아키텍처: 이해(understanding) 분기와 생성(generation) 분기로 구성되며, 입력으로 semantic ViT 임베딩만 사용하고 VAE latent는 제거한다. 3) Inference 전략: 텍스트-이미지 밸런스를 조정하기 위한 두 단계 가이던스와 classifier-free guidance를 적용한다. ϵˆbal = ϵθ(zt, ∅, cv) + s1 · (ϵθ(zt, ct, cv) − ϵθ(zt, ∅, cv)); ϵ˜θ = ϵθ(zt, ∅, ∅) + s2 · (ˆϵbal − ϵθ(zt, ∅, ∅)). 해설: s1은 텍스트 지시의 영향을 강화하고 s2는 글로벌 가이던스 강도를 조절한다. 4) Scalable Interleaved Data Engine: (i) Global Captioning: Doubao-Seed-1.6-Vision 등 VLM으로 전반적 서사를 생성, (ii) Fine-grained Processing: 객체 DETECTION → Bounding Boxes/Labels, SAM으로 마스크, DAM으로 객체 캡션 생성, (iii) LLM-driven Interleaved Construction: 글로벌 캡션과 객체 트리플렛을 기반으로 인터리브드 캡션과 매핑을 JSON으로 산출, 3–8 이미지 샘플을 포함한 10M 샘플 생성. 5) Video 확장: 프레임 간 장거리 대응으로 동일 엔티티를 식별하고 상태 변화를 반영한 인터리브드 지시를 생성하고, 원본 프레임의 시각 토큰을 크롭해 학습에 사용.
관련 Figure

이 도해는 InSET의 네이티브 인터리브드 형식이 텍스트와 이미지 간 위치 기반 바인딩을 가능하게 하는지를 시각적으로 강조한다. 텍스트와 이미지가 같은 시퀀스 안에서 상호작용하는 방식이 긴 범위 의존성 문제를 완화한다는 점을 시사한다.
문장 속 이미지(InSET) 개념을 시각화하는 도해로, 텍스트에 이미지 토큰을 배치하고 semantic slots에 대응시키는 구성을 보여준다.

인터리브드 데이터 생성을 위한 파이프라인의 구성 요소와 흐름을 보여주며, 10M 샘플 생성의 전 과정을 시각화한다. 이 그림은 데이터 엔진의 근간이 무엇인지 이해하는 데 직접적인 근거를 제공한다.
Figure 3: Synthesizing Interleaved Data from Images — 글로벌 캡션, 객체 검출, 마스크, 객체 캡션, 인터리브드 지시를 연결하는 데이터 엔진 흐름.
주요 결과
주요 벤치마크 결과: InterleaveBench에서 Inset의 이미지 일관성/텍스트 정합성은 5개 객체 설정까지 모두 오차범위 밖의 우수한 성능을 보였고, 오픈 소스 모델 대비 우수하였다. 표 1에 따르면 Inset은 Two Obj./Three Obj./Four Obj./Five Obj./Overall에서 이미지 일관성 0.93/0.94/0.90/0.94/0.93, 텍스트 정합성 0.82/0.78/0.72/0.71/0.75로 나타났다. 특히 Five Objects 설정에서의 차이가 두드러진다. Ablation 연구: Baseline 0.61(전체)에서 Image First 0.86(이미지 일관성)/0.66(텍스트 정합성)로 향상되며, w/o Video-based Data 0.91/0.60, w/ VAE Feature 0.82/0.56로 하향했다. Ours(Inset)는 0.93(이미지 일관성)/0.82(텍스트 정합성)로 최상위를 기록했다. 학습/추론 세부: 50k 스텝, 최대 해상도 1024, 시퀀스 길이 ~30k, 학습 데이터 구성 비율 0.2:0.2:0.1:0.5, 최적화: AdamW β1=0.9, β2=0.95, 학습률 2.5e-5. 추론 시 텍스트 의존성 증가 및 VAE 대체로 인한 입력-출력 품질 향상을 확인할 수 있다. 편집 태스크: 입력 이미지가 포함되면 더 정밀한 편집이 가능하고, 특정 시각적 특성(브랜드 로고, 특정 의류 디자인 등)의 재현이 개선된다.
관련 Figure

다수 모델의 결과를 한 화면에 보여주며 Inset의 상대적 강점을 시각적으로 제시한다. Five Objects 설정에서의 차이가 두드러져, Inset의 속성 바인딩 및 일관성 우수성을 시사한다.
DreamOmni 2, Flux-Kontext, Qwen Image, BAGEL, Ours의 다중 모델 비교 컬러 바 배치 이미지.

Baseline 대비 더 정확한 객체 위치와 속성 표현, 텍스트 지시의 따른 편집 정확성이 시각적으로 드러난다. 다중 예시를 통해 텍스트-이미지 바인딩의 안정성과 편집 품질의 우수성이 부각된다.
Figure 5: Advanced Close-sourced Methods와의 질적 비교 — Inset의 고품질 이미지 편집 예시.
기술 상세
- 아키텍처: InSET은 이해 분기와 생성 분기가 결합된 Mixture-of-Transformer 구조로, VAE latent를 제거하고 semantic ViT 임베딩만 사용한다. 2) 핵심 메커니즘: 이미지 토큰을 텍스트 내의 슬롯에 매핑해 텍스트-이미지 간 직접 바인딩을 수행하며, IDs/Boxes/Labels, Instance Masks, Object Captions를 통해 객체 수준 정보를 구성한다. 3) 차별점: Indirect-query 기반의 기존 방법과 달리 이미지 토큰을 내재화하고, VAE 기반 인코더의 이미지-붙여넣기 문제를 피한다. 4) 구현/학습: BAGEL에서 파생된 초기화, 데이터 엔진 구성, 학습 스케줄 및 해상도 제약 등을 포함한다(해당 내용은 논문에 제시된 수치와 구성을 따른다).
실무 활용
이미지를 텍스트 토큰으로 취급하는 방식은 다중 이미지 지시를 통한 고정밀 생성과 텍스트-이미지 편집의 연결 고리를 제공한다. 대규모 인터리브드 데이터 엔진과 인터리브드 벤치마크를 통해 현실 세계의 복잡한 시나리오에서도 안정적으로 작동한다.
- 다중 이미지 지시를 활용한 텍스트-주도형 멀티모달 콘텐츠 생성
- 고정밀 이미지 편집(특정 시각 특징을 정확히 반영하는 텍스트-지시 기반 편집)
- 스토리텔링형 비주얼 시퀀스 생성 및 편집
- 데이터 증강을 위한 인터리브드 샘플 생성(비디오-프레임 간 상태 변화 반영)
코드 공개 여부: 미확인
관련 Figure

입력 이미지와 인터리브드 지시를 함께 반영한 편집 예시를 통해 Inset이 multimodal editing으로 자연스러운 상태 변화와 스타일 반영을 수행함을 시사한다.
Figure 6: Emergent multimodal image editing via interleaved instructions — 입력 이미지와 지시를 함께 사용한 편집 예시.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.