왜 중요한가
기존 텍스트-이미지 생성 모델은 복잡한 배치나 텍스트 렌더링에서 한계를 보였으나, 이 논문은 사고 과정을 실행 가능한 코드로 변환하여 이를 해결한다. 코드를 통해 논리적인 초안을 먼저 만들고 이를 정교하게 다듬는 방식을 통해 과학 도표나 정밀한 레이아웃이 필요한 이미지 생성의 신뢰도를 획기적으로 높였다.
핵심 기여
Code-as-CoT 프레임워크
텍스트 프롬프트를 실행 가능한 코드로 변환하여 이미지의 구조적 레이아웃을 명시적으로 계획하는 추론-생성 파이프라인이다.
CoCo-10K 데이터셋 구축
구조화된 초안(Draft)과 최종 이미지 쌍을 포함하는 1만 개 이상의 고품질 데이터셋을 구축하여 모델의 코드 생성 및 시각적 정제 학습을 지원한다.
초안 가이드 기반 정제 메커니즘
샌드박스에서 렌더링된 결정론적 초안 이미지를 시각적 스캐폴드로 활용하여 최종 이미지의 의미적 일관성과 시각적 품질을 동시에 개선한다.
벤치마크 성능 입증
StructT2IBench에서 기존 모델 대비 68.83%의 성능 향상을 기록하며 구조화된 이미지 생성 분야의 새로운 기준을 제시했다.
핵심 아이디어 이해하기
기존의 확산 모델이나 자기회귀 모델은 텍스트 프롬프트에서 직접 이미지를 생성할 때, 공간적 관계나 텍스트의 정확한 위치를 임베딩 공간 내의 확률적 분포에만 의존한다. 이로 인해 y=x^2 그래프나 특정 위치의 메뉴판 같은 정밀한 구조가 필요한 작업에서 객체가 겹치거나 텍스트가 뭉개지는 한계가 발생한다.
CoCo는 이 문제를 해결하기 위해 사고의 사슬(CoT)을 자연어가 아닌 파이썬 코드로 표현한다. 코드는 좌표, 색상, 텍스트 내용을 수학적으로 정의하므로 모호함이 없다. 모델은 먼저 Matplotlib 등을 활용한 코드를 작성하고, 이를 실행하여 물리적으로 정확한 초안 이미지를 생성함으로써 시각적 뼈대를 확립한다.
생성된 초안은 모델에게 어디에 무엇이 있어야 하는지에 대한 명확한 가이드를 제공한다. 이후 모델은 이 초안의 구조를 유지하면서 질감, 조명, 세부 묘사만을 추가하는 정제 과정을 거친다. 결과적으로 추상적인 텍스트가 논리적인 코드를 거쳐 고해상도 이미지로 변환되는 안정적인 경로를 확보하게 된다.
방법론
CoCo 프레임워크는 코드 생성, 초안 렌더링, 초안 가이드 정제의 3단계로 구성된다. 통합 멀티모달 모델(Unified MLLM)인 Bagel을 기반으로 하며, 텍스트 프롬프트가 입력되면 먼저 이미지의 핵심 구조를 정의하는 파이썬 코드를 출력한다.
생성된 코드는 격리된 샌드박스 환경에서 실행되어 결정론적인 초안 이미지를 생성한다. 이 과정에서 [코드 토큰 입력 → 파이썬 인터프리터 실행 → 픽셀 단위 렌더링 → 초안 이미지 출력] 순으로 연산이 이루어지며, 이는 모델의 추론 결과를 시각적으로 검증 가능한 형태로 고정하는 역할을 한다.
마지막 단계에서는 초안 이미지를 ViT 인코더와 VAE 인코더를 통해 다시 모델에 입력한다. 모델은 초안의 구조적 특징과 세부 픽셀 정보를 결합하여 프롬프트에 부합하는 고품질 최종 이미지를 생성한다. 학습 시에는 코드 토큰에 대해 Cross-Entropy Loss를 계산한다. [모델이 예측한 토큰 확률 분포와 실제 정답 토큰을 입력으로] → [로그 확률의 음수 값을 취해 합산하는 연산을 수행하여] → [예측이 틀릴수록 커지는 손실 값을 얻고] → [이 값을 최소화함으로써 모델이 정확한 파이썬 문법을 구사하도록 학습시킨다.]
초안 이미지 정제 시에는 MSE(Mean Squared Error) 손실을 사용한다. [생성된 이미지의 VAE 토큰과 실제 이미지의 토큰 차이를 입력으로] → [각 차이값의 제곱을 평균 내는 연산을 수행하여] → [두 이미지 간의 픽셀 단위 오차를 숫자로 얻고] → [이 오차를 줄임으로써 초안의 구조를 유지하면서도 실사 같은 품질을 구현한다.]
주요 결과
StructT2IBench 평가 결과, CoCo는 73.52%의 종합 정확도를 기록하며 기존 최고 성능 모델인 GPT-Image(49.58%)를 크게 앞질렀다. 특히 차트(79.44%), 그래프(62.58%), 표(79.15%) 등 정밀한 레이아웃이 요구되는 항목에서 압도적인 성능을 보였다.
텍스트 렌더링 성능에서도 OneIG-Bench에서 0.853점, LongText-Bench에서 0.754점을 기록하며 오픈소스 및 폐쇄형 모델들을 모두 능가했다. 이는 코드를 통해 텍스트의 위치와 내용을 미리 확정한 전략이 유효했음을 입증한다.
소량의 코드 감독 학습만으로도 모델의 코드 실행 성공률이 9.06%에서 100%로 급증하는 것을 확인했다. 또한 고정된 해상도(1024)로 학습했음에도 불구하고, 추론 시 프롬프트에 따라 16:9 등 다양한 종횡비의 코드를 생성하는 일반화 능력을 보여주었다.
실무 활용
정밀한 도표, 그래프, 텍스트가 포함된 포스터 등 구조적 정확도가 필수적인 이미지 생성 실무에 즉시 활용 가능하다. 특히 데이터 시각화나 교육용 자료 생성 시 수작업을 대폭 줄여줄 수 있다.
- 데이터 기반의 정확한 과학적 도표 및 그래프 자동 생성
- 복잡한 텍스트 배치가 포함된 광고 포스터 및 인포그래픽 제작
- 수학적 함수나 기하학적 구조를 시각화하는 교육용 콘텐츠 생성
- 정해진 레이아웃 가이드를 준수해야 하는 UI/UX 프로토타입 초안 생성
기술 상세
CoCo는 Bagel 아키텍처를 확장하여 Mixture-of-Transformer-Experts(MoT) 구조를 활용한다. 시각적 이해를 위한 SigLIP ViT 인코더와 이미지 생성을 위한 VAE 인코더를 통합하여 단일 모델 내에서 이해와 생성을 동시에 수행한다.
핵심 차별점은 사고의 사슬(CoT)을 실행 가능한 중간 표현(Intermediate Representation)으로 정의했다는 점이다. 기존의 텍스트 기반 CoT가 갖는 모호성을 극복하기 위해 Matplotlib, Seaborn 등 표준 라이브러리를 활용한 코드를 생성하도록 유도한다.
학습 과정에서는 CoCo-10K 데이터셋을 사용하여 텍스트-코드 쌍과 텍스트-초안-최종 이미지 트리플렛을 혼합 학습한다. 특히 코드 생성 능력을 먼저 배양한 후 전체 파라미터 미세조정(Full-parameter fine-tuning)을 진행하는 2단계 학습 전략을 채택했다.
초안 가이드 정제 시, 초안 이미지를 ViT와 VAE로 이중 인코딩하여 입력함으로써 전역적인 구조 정보와 국소적인 픽셀 정보를 모두 보존한다. 이는 모델이 초안의 레이아웃을 무시하고 새로운 이미지를 그리는 드리프트 현상을 방지한다.
한계점
Bagel 모델의 기본 성능에 의존하므로 모델이 코드를 잘못 생성하거나 샌드박스에서 지원하지 않는 라이브러리를 호출할 경우 생성이 실패할 수 있다. 또한 초안과 최종 이미지 사이의 정렬이 완벽하지 않을 경우 시각적 아티팩트가 발생할 가능성이 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.