BBQ-to-Image: 대규모 텍스트-이미지 모델에서의 수치적 바운딩 박스 및 색상 제어

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 이미지 생성 모델은 '오른쪽 아래', '진홍색' 같은 모호한 언어적 표현에 의존해 정밀한 제어가 어려웠다. BBQ는 전문적인 작업 흐름에 필수적인 픽셀 단위 좌표와 정확한 RGB 값을 직접 입력받아, 건축이나 디자인 분야에서 요구하는 수준의 정밀한 이미지 생성을 가능하게 한다.

왜 중요한가

핵심 기여

수치적 파라미터 직접 조건화 도입

별도의 아키텍처 변경이나 특수 토큰 없이 텍스트 프롬프트 내에 [x0, y0, x1, y1] 좌표와 [R, G, B] 값을 포함하여 모델을 학습시켰다.

구조화된 텍스트 프레임워크 활용

FIBO 스타일의 JSON 캡션을 확장하여 객체의 위치와 색상을 수치로 명시함으로써 모델이 자연어의 모호성을 극복하도록 했다.

VLM 기반의 추론 브리지 구축

사용자의 짧은 자연어 입력을 상세한 수치 파라미터가 포함된 JSON 구조로 변환하는 VLM을 미세조정하여 사용 편의성을 높였다.

강력한 공간 및 색상 정확도 달성

COCO 및 LVIS 벤치마크에서 기존 레이아웃 제어 모델 대비 우수한 성능을 보였으며, 특히 색상 재현율에서 SOTA를 기록했다.

핵심 아이디어 이해하기

기존 텍스트-이미지 모델은 텍스트 임베딩을 통해 개념을 이해하지만, '정확히 어디에 어떤 크기로'와 같은 수치적 정보는 언어의 모호성 때문에 정확히 반영하기 어렵다. Attention 메커니즘은 단어 간의 관계를 파악하지만, 숫자를 공간적 좌표나 색상 강도로 매핑하는 능력은 부족했다.

BBQ는 숫자를 단순한 텍스트가 아닌 명확한 제어 신호로 인식하도록 학습시킨다. JSON 형태의 구조화된 캡션에 좌표값과 RGB 값을 포함시켜 학습 데이터셋을 구성함으로써, 모델이 특정 숫자 조합을 이미지의 특정 영역(Bounding Box)과 색상 값(RGB)에 직접 연결하도록 유도했다.

이 방식은 모델의 내부 구조를 바꾸지 않고도 데이터 증강만으로 정밀 제어를 가능하게 한다. 결과적으로 사용자는 드래그 앤 드롭이나 컬러 피커로 생성된 수치를 입력하여, 이미지의 다른 부분은 유지한 채 특정 객체의 위치나 색상만 정교하게 수정할 수 있는 'Native Disentanglement'를 경험하게 된다.

방법론

FIBO 데이터셋을 기반으로 SAM2를 이용해 객체의 바운딩 박스를 추출하고, Pylette를 사용해 지배적인 RGB 색상을 추출했다. 이를 JSON 형식의 캡션으로 통합하여 2,500만 개의 이미지-텍스트 쌍을 구축했다. 8B 파라미터 규모의 Flow-matching 기반 트랜스포머 아키텍처를 사용하여 별도의 레이아웃 어댑터 없이 수치 데이터가 포함된 긴 텍스트를 직접 입력받아 이미지를 렌더링하도록 80,000 스텝 동안 학습을 진행했다.

수치 데이터 [x0, y0, x1, y1]가 텍스트 토큰으로 입력되면 → 트랜스포머의 Self-Attention 레이어가 이 토큰들을 공간적 가이드로 삼아 어텐션 맵을 형성하고 → 해당 좌표 범위 내에 객체의 특징을 집중적으로 생성하여 → 픽셀 단위의 정확한 배치를 구현한다. 또한 RGB 값 [R, G, B]가 입력되면 → 모델은 이를 특정 색상 임베딩으로 변환하고 → Cross-Attention을 통해 해당 객체 영역의 텍스트-이미지 정렬을 수행하여 → 조명이나 그림자에 구애받지 않는 정확한 색상을 입힌다.

사용자의 짧은 프롬프트를 BBQ가 이해할 수 있는 수치 JSON으로 변환하기 위해 Qwen-3 VL 4B 모델을 미세조정했다. 이 VLM은 'Generate', 'Refine', 'Inspire' 세 가지 모드로 작동하여 사용자의 의도를 정밀한 파라미터로 번역하는 추론 브리지 역할을 수행한다.

주요 결과

TaBR(Text-as-a-Bottleneck Reconstruction) 평가에서 BBQ는 Nano Banana Pro 대비 65.2%, FLUX.2 Pro 대비 93.3%의 승률을 기록하며 압도적인 표현력을 입증했다. 이는 수치적 제어가 이미지의 전반적인 품질과 세부 묘사 능력을 동시에 향상시켰음을 의미한다.

바운딩 박스 정확도 측정 결과, COCO 데이터셋에서 AP 28.6을 기록하여 기존의 특화 모델인 GLIGEN(19.6)을 크게 상회했다. 이는 아키텍처 변경 없이도 수치 학습만으로 정밀한 공간 제어가 가능함을 보여주는 결과이다.

색상 충실도(Color Fidelity) 측면에서도 BBQ는 ΔE00 지표에서 가장 낮은 오차를 기록했다. 특히 K=5(5개 색상 제어) 조건에서 Mean ΔE00 5.93을 달성하여 경쟁 모델들보다 정확한 색상 구현 능력을 보였다.

기술 상세

BBQ는 Flow-matching 목적 함수를 사용하는 트랜스포머 백본을 기반으로 한다. 텍스트 인코더가 수치 정보를 포함한 긴 JSON 시퀀스를 처리하며, 모델은 이 토큰들을 공간적/색상적 제약 조건으로 해석한다. 학습 시 [x0, y0, x1, y1] 좌표는 0에서 1 사이의 상대 좌표로 정규화되어 텍스트로 입력되며, RGB 값은 [0, 255] 범위의 정수 트리플렛으로 표현된다.

기존의 ControlNet이나 GLIGEN과 달리 추가적인 인코더나 어댑터 레이어가 없어 추론 시 오버헤드가 발생하지 않으며, 모델 고유의 생성 능력을 온전히 보존하면서 제어력만 확장했다. 또한 DPO(Direct Preference Optimization) 학습을 통해 텍스트 렌더링 및 심미적 품질을 추가로 개선했다.

한계점

VLM 브리지가 사용자의 의도를 완벽하게 파악하지 못할 경우 잘못된 수치를 생성할 수 있으며, 매우 복잡한 씬에서 수많은 객체를 동시에 제어할 때의 일관성 유지는 여전히 해결해야 할 과제이다.

실무 활용

전문 디자이너나 건축가가 정확한 수치를 바탕으로 이미지를 생성하고 수정하는 워크플로우에 즉시 적용 가능하다.

UI/UX 디자인 시안 생성 및 요소 배치 제어
가구 배치 시뮬레이션 및 공간 레이아웃 설계
브랜드 가이드라인에 맞춘 정확한 RGB 색상의 제품 이미지 생성

코드 공개 여부: 비공개

키워드

T2I(텍스트-이미지 생성)Bounding Box(바운딩 박스)RGB Control(RGB 제어)Structured Prompting(구조화된 프롬프팅)Flow-matching(플로우 매칭)