핵심 요약
기존 이미지 생성 모델이 복잡한 공간 관계나 논리적 명령을 한 번에 처리하지 못해 발생하는 오류를 해결하기 위해 인간의 화법을 모방한 단계적 생성 방식을 도입했다. 텍스트와 이미지가 서로 피드백을 주고받는 루프를 통해 생성 과정의 제어 가능성과 해석 가능성을 획기적으로 높였다.
왜 중요한가
기존 이미지 생성 모델이 복잡한 공간 관계나 논리적 명령을 한 번에 처리하지 못해 발생하는 오류를 해결하기 위해 인간의 화법을 모방한 단계적 생성 방식을 도입했다. 텍스트와 이미지가 서로 피드백을 주고받는 루프를 통해 생성 과정의 제어 가능성과 해석 가능성을 획기적으로 높였다.
핵심 기여
4단계 반복 생성 프레임워크 구축
이미지 생성을 계획(Plan), 스케치(Sketch), 검사(Inspect), 수정(Refine)의 4단계 순환 구조로 재정의하여 복잡한 프롬프트를 단계적으로 구현함.
장면 그래프 기반의 단계적 데이터셋 구축
Scene Graph Subsampling 기법을 통해 모순 없는 중간 상태 이미지와 텍스트 계획이 포함된 고품질의 교차 추론 데이터셋을 생성함.
이중 스트림 과정 비판 메커니즘
텍스트와 시각 정보 모두에서 오류를 감지하고 스스로 수정할 수 있도록 하는 Dual-stream Process-critique 데이터를 통해 모델의 자가 교정 능력을 학습시킴.
효율적인 통합 멀티모달 모델 학습
BAGEL-7B 모델을 기반으로 단 62K의 샘플만 사용하여 기존 RL 기반 방식보다 8배 적은 비용으로 SOTA 성능을 달성함.
핵심 아이디어 이해하기
기존의 이미지 생성 모델은 대규모 데이터를 통해 학습된 가중치를 이용해 단 한 번의 연산(Single Forward Pass)으로 전체 이미지를 완성하려 한다. 이는 마치 화가가 캔버스를 보지도 않고 머릿속으로만 구상하여 한 번에 사진 같은 그림을 찍어내는 것과 같아서, 객체 간의 복잡한 위치 관계나 세부 속성에서 논리적 오류가 발생하기 쉽다.
이 논문은 인간이 그림을 그릴 때 전체 구도를 잡고, 밑그림을 그린 뒤, 잘못된 부분을 찾아 수정하며 세부를 완성해가는 과정에 주목한다. 이를 위해 텍스트 토큰과 이미지 토큰을 동일한 시퀀스 상에서 처리하는 통합 멀티모달 모델을 활용하여, '텍스트로 계획 세우기 → 이미지 일부 그리기 → 생성된 이미지 검토하기 → 수정 계획 수립'이라는 루프를 형성한다.
결과적으로 모델은 각 단계에서 자신이 무엇을 그렸는지 시각적으로 인지하고, 그것이 원래의 명령과 일치하는지 스스로 판단한다. 이러한 '시각적 접지(Visual Grounding)' 과정이 반복되면서, 모델은 단순히 픽셀의 통계적 분포를 맞추는 것이 아니라 논리적인 인과 관계에 따라 이미지를 구성하게 된다.
관련 Figure

기존 모델이 '스푼 위에 떠 있는 곰' 프롬프트를 잘못 해석하는 반면, 제안된 모델은 단계를 나누어 스푼을 먼저 그리고 그 위에 곰을 배치함으로써 정확한 공간 관계를 구현함을 보여준다. 또한 중간 단계에서 발생한 위치 오류를 스스로 감지하고 수정하는 과정을 시각화한다.
단일 패스 생성과 과정 중심 생성의 결과 비교 및 오류 수정 사례를 보여주는 다이어그램이다.
방법론
전체 프로세스는 Plan → Sketch → Inspect → Refine의 4단계 사이클을 반복한다. Plan 단계에서는 전체 프롬프트와 현재까지의 맥락을 입력받아 다음에 추가하거나 수정할 구체적인 명령()과 장면 설명()을 텍스트로 생성한다. Sketch 단계에서는 이 계획에 따라 Rectified Flow 기반의 이미지 토큰을 생성하여 시각적 상태를 업데이트한다.
Inspect 단계에서는 생성된 이미지와 계획 간의 불일치를 감지한다. [현재 이미지와 텍스트 계획 입력 → VLM 기반의 자가 평가 수행 → 오류 여부 판단] 과정을 거쳐 불일치가 발견되면 Refine 단계로 진입한다. Refine 단계에서는 오류를 바로잡기 위한 수정 신호()를 내보내고 이미지를 다시 연마하여 최종적으로 프롬프트에 부합하는 결과물을 도출한다.
학습을 위해 Scene Graph를 활용한 데이터 파이프라인을 구축했다. [전체 장면 그래프 입력 → 부분 그래프 추출 → 단계별 프롬프트 생성 → 중간 이미지 합성] 순서로 데이터를 생성하여 모델이 논리적 일관성을 학습하게 했다. 또한 모델이 스스로의 실수를 인식하도록 하기 위해, 의도적으로 오류가 포함된 궤적을 샘플링하고 이에 대한 비판적 분석과 수정 지침을 포함하는 데이터셋으로 지도 학습(SFT)을 진행했다.
관련 Figure

텍스트 토큰과 시각 토큰이 하나의 모델 내에서 어떻게 순차적으로 생성되는지 보여준다. Planning, Sketch, Inspect, Refine 단계가 특수 토큰으로 구분되어 자기회귀적으로 연결되는 구조를 명확히 설명한다.
통합 멀티모달 추론 모델의 아키텍처와 텍스트/이미지 토큰의 교차 생성 흐름을 나타낸다.

복잡한 전체 프롬프트를 장면 그래프로 변환하고, 이를 부분적으로 샘플링하여 논리적인 생성 순서를 만드는 과정을 보여준다. 이는 모델 학습에 필요한 고품질의 중간 상태 데이터를 확보하는 핵심 방법론이다.
장면 그래프로부터 단계별 프롬프트와 중간 시각 데이터를 생성하는 파이프라인을 설명한다.
주요 결과
GenEval 벤치마크에서 기본 모델인 BAGEL-7B의 성능을 79%에서 83%로 끌어올렸으며, 특히 객체 위치(Position)와 색상 속성(Color Attributes) 부문에서 큰 폭의 개선을 보였다. 이는 12B 파라미터 규모의 FLUX.1-dev 모델과 대등하거나 이를 능가하는 수준이다.
세계 지식 추론 능력을 평가하는 WISE 벤치마크에서는 기존 70%에서 76%로 성능이 향상되었다. 특히 시간(Time)과 화학(Chemistry) 등 복잡한 개념적 이해가 필요한 영역에서 높은 정확도를 기록했다.
효율성 측면에서 기존의 강화학습 기반 방식인 PARM과 비교했을 때, 학습 데이터는 11배 적게 사용하면서도 추론 비용은 8배 절감했다. PARM이 1000단계의 샘플링을 필요로 하는 반면, 본 모델은 평균 131단계의 샘플링만으로 고품질 이미지를 생성했다.
관련 Figure

단순한 추가 작업뿐만 아니라, 프롬프트와 맞지 않는 객체를 제거하거나 위치를 조정하는 등 고도화된 수정 능력을 실제 생성 사례를 통해 증명한다. 각 단계별 텍스트 계획과 시각적 결과물의 일치도를 확인할 수 있다.
다양한 시나리오에서 모델이 수행하는 교차 추론 궤적의 시각화 결과이다.

모델이 복잡한 세부 사항, 질감, 그리고 다양한 도메인의 지식을 결합하여 시각적으로 뛰어난 결과물을 생성할 수 있음을 보여준다. GenEval 및 WISE 벤치마크에서 사용된 프롬프트들에 대한 실제 출력물들이다.
제안된 모델로 생성된 다양한 고해상도 이미지 샘플 모음이다.
기술 상세
본 연구는 통합 멀티모달 모델(Unified Multimodal Model)인 BAGEL-7B를 백본으로 사용하며, 텍스트와 이미지 토큰을 동일한 트랜스포머 아키텍처 내에서 자기회귀(Autoregressive) 방식으로 생성한다. 이미지 생성에는 Rectified Flow 패러다임을 채택하여 텍스트 조건부 노이즈 제거 과정을 수행한다.
핵심 차별점은 '세만틱 파티셔닝(Semantic Partitioning)'이다. 기존 연구들이 픽셀 수준의 노이즈 상태에서 검증을 시도했던 것과 달리, 본 모델은 객체와 관계가 명확히 드러나는 중간 시각 상태를 감독한다. 이를 위해 , , 과 같은 특수 토큰을 도입하여 양태 간 전환(Modality Transition)을 명시적으로 관리한다.
학습 손실 함수는 텍스트 세그먼트에 대한 Cross-Entropy Loss와 이미지 토큰에 대한 MSE Loss의 가중 합으로 정의된다. 특히 <|vision_start|>와 <|vision_end|> 토큰에 손실을 부여하여 모델이 텍스트 추론과 시각적 생성 사이를 매끄럽게 전환하도록 유도한다.
한계점
본 논문은 중간 상태의 모호성을 해결하기 위해 조밀한 감독을 제공하지만, 매우 복잡한 장면에서 중간 단계가 너무 많아질 경우 추론 시간이 길어질 수 있는 잠재적 한계가 있다. 또한 명시적으로 언급되지는 않았으나 정해진 4단계 루프 외의 예외적인 생성 궤적에 대한 강건성 문제는 추가 연구가 필요할 수 있다.
실무 활용
복잡한 레이아웃이나 정교한 객체 제어가 필요한 전문적인 이미지 생성 도구에 즉시 적용 가능하다. 사용자가 생성 과정에 개입하여 실시간으로 수정을 요청할 수 있는 Human-in-the-loop 시스템 구축에 유리하다.
- 복잡한 공간 배치가 포함된 광고 및 디자인 시안 생성
- 사용자의 피드백을 실시간으로 반영하는 대화형 이미지 편집 서비스
- 논리적 정합성이 중요한 교육용 삽화 및 다이어그램 자동 생성
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.