핵심 요약
텍스트-이미지 확산 모델이 단일 객체 생성에는 뛰어나지만 여러 객체의 관계나 개수를 정확히 표현하지 못하는 근본적인 원인을 데이터 측면에서 분석했습니다. 장면의 복잡도와 데이터 분포가 모델의 일반화 능력에 미치는 영향을 규명하여 더 견고한 다중 객체 생성 모델 설계를 위한 방향성을 제시합니다.
왜 중요한가
텍스트-이미지 확산 모델이 단일 객체 생성에는 뛰어나지만 여러 객체의 관계나 개수를 정확히 표현하지 못하는 근본적인 원인을 데이터 측면에서 분석했습니다. 장면의 복잡도와 데이터 분포가 모델의 일반화 능력에 미치는 영향을 규명하여 더 견고한 다중 객체 생성 모델 설계를 위한 방향성을 제시합니다.
관련 Figure

확산 모델이 'zebra and giraffe'와 같은 다중 객체 생성 시 속성을 혼동하거나 개수를 틀리는 근본적인 문제를 시각화한다. (b) 그래프는 데이터 빈도가 낮을수록 개수 세기 정확도가 급격히 떨어짐을 보여주며 연구의 핵심 질문인 데이터와 학습 능력의 상관관계를 제시한다.
확산 모델이 단일 객체 생성에는 성공하지만 다중 객체의 속성, 개수, 공간 관계 표현에는 실패하는 사례와 데이터 규모에 따른 성능 변화를 보여주는 도식이다.
핵심 기여
MOSAIC 진단 데이터셋 생성 프레임워크 구축
객체 속성 할당(Attribution), 개수 세기(Counting), 공간적 관계(Spatial Relations)를 독립적으로 제어하여 확산 모델의 다중 객체 생성 능력을 정밀하게 측정할 수 있는 환경을 조성했다.
장면 복잡도와 데이터 불균형의 인과 관계 규명
모델의 성능 저하가 단순히 특정 개념의 데이터 부족(Imbalance) 때문이 아니라, 장면 내 객체 수가 늘어남에 따라 발생하는 장면 복잡도(Scene Complexity)에 더 큰 영향을 받는다는 사실을 확인했다.
개수 세기(Counting) 학습의 취약성 발견
Counting은 데이터가 적은 환경에서 학습 초기에는 성능이 오르다가 곧 급격히 하락하는 독특한 양상을 보이며, 이는 모델이 일반화 대신 암기에 의존하기 때문임을 밝혔다.
조합 일반화(Compositional Generalization)의 한계 확인
학습 시 보지 못한 새로운 개념 조합을 생성하는 능력은 데이터 규모가 커져도 한계가 있으며, 특히 공간적 관계를 조합하는 작업에서 가장 낮은 성능을 보임을 입증했다.
핵심 아이디어 이해하기
확산 모델은 이미지의 픽셀 분포를 학습하여 텍스트 조건에 맞는 이미지를 생성하지만, 여러 객체가 등장하는 복잡한 장면에서는 각 객체의 정체성과 속성을 연결하는 데 어려움을 겪는다. 기존 연구들은 이를 주로 모델 구조나 텍스트 인코더의 문제로 보았으나, 본 논문은 학습 데이터의 구성 방식이 모델의 '개념 이해'와 '조합 능력'에 어떤 제약을 거는지에 집중한다.
가장 기초적인 개념인 Embedding 공간에서 각 객체는 독립적인 벡터로 존재해야 하지만, 실제 학습 과정에서 모델은 여러 객체의 특징을 분리하지 못하고 하나로 뭉뚱그려 학습하는 경향이 있다. 특히 객체의 개수를 세는 Counting 작업의 경우, 모델은 개별 객체를 인지하기보다 장면 전체의 통계적 특징을 암기하려 시도하며, 이로 인해 데이터가 부족한 구간에서 성능이 급격히 붕괴되는 현상이 발생한다.
결과적으로 모델이 다중 객체를 잘 생성하게 하려면 단순히 데이터를 늘리는 것보다, 객체의 위치를 고정하는 Grid Layout과 같은 강한 유도 편향(Inductive Bias)을 제공하여 장면의 복잡도를 인위적으로 낮추는 것이 학습 안정성에 결정적인 역할을 한다는 원리를 제시한다.
방법론
다중 객체 생성 능력을 평가하기 위해 MOSAIC(Multi-Object Spatial relations, AttrIbution, Counting) 프레임워크를 설계했다. 이 프레임워크는 3D 자산을 활용하여 객체의 색상, 위치, 개수를 정밀하게 조절한 이미지를 생성하며, 이를 통해 데이터의 크기와 분포(Uniform vs Skewed)가 모델 학습에 미치는 영향을 통제된 환경에서 분석한다.
학습에는 U-Net 기반의 Latent Diffusion Model과 Diffusion Transformer(DiT) 아키텍처를 모두 사용했다. 텍스트 조건은 One-hot Vector 형태로 입력되어 Condition Encoder를 거친 후 Attention Layer를 통해 확산 프로세스에 주입된다. [조건 벡터 입력 → MLP 인코딩 → Cross-Attention 연산 → 노이즈 예측 가이드] 순으로 계산이 수행되어 모델이 특정 속성에 집중하도록 유도한다.
특히 '조합 일반화'를 측정하기 위해 개념 쌍(예: 색상 x 개수)의 행렬에서 특정 대각선 성분을 학습 데이터에서 제외하는 Diagonal Leave-out 스킴을 적용했다. 이를 통해 모델이 학습 시 보지 못한 조합을 추론할 때 발생하는 성능 저하를 정량화했다.
관련 Figure

파란색 셀은 학습 시 노출된 조합을, 주황색 셀은 테스트 시에만 사용되는 미관측 조합을 나타낸다. 대각선 성분을 제거함으로써 모델이 개별 개념(색상, 개수 등)은 모두 보았음에도 불구하고 그들의 새로운 조합을 생성할 수 있는지 엄격하게 평가하는 방법론을 보여준다.
조합 일반화를 테스트하기 위해 학습 데이터에서 특정 개념 쌍을 제외하는 Diagonal Leave-out 전략을 설명하는 행렬 다이어그램이다.
주요 결과
Attribution과 Spatial Relations 작업은 데이터 불균형이 심하더라도 데이터셋 크기가 100k에 도달하면 90% 이상의 높은 정확도를 달성했다. 반면 Counting은 10k~50k 구간에서 성능이 급격히 하락했다가 100k에서야 회복되는 불안정한 양상을 보였으며, 이는 모델이 초기에는 데이터를 암기하다가 일반화 단계로 넘어가지 못해 발생하는 현상으로 분석됐다.
장면 복잡도를 높인 실험에서 객체 수가 증가할수록 모든 작업의 성능이 하락했으며, 특히 Counting의 난이도가 가장 높았다. 하지만 객체의 위치를 특정 영역으로 제한하는 Grid Layout을 적용했을 때, 10k 데이터 규모에서도 Counting 정확도가 65.4%에서 94.6%로 비약적으로 상승하여 공간적 제약 조건이 학습 효율을 크게 높임을 증명했다.
조합 일반화 실험에서는 학습에서 제외된 조합이 많아질수록 성능이 선형적으로 하락했다. 특히 Spatial Relations는 보지 못한 조합에 대해 가장 취약한 모습을 보였으며, 이는 확산 모델이 기하학적 관계를 유연하게 재조합하는 능력이 근본적으로 부족함을 시사한다.
기술 상세
본 연구는 Latent Diffusion Model(LDM) 아키텍처를 기반으로 하며, 약 90M 파라미터 규모의 U-Net과 DiT 백본을 비교 분석했다. 모든 모델은 4개의 A100 GPU에서 AdamW 옵티마이저를 사용하여 학습되었으며, 128x128 해상도의 이미지를 생성하도록 설정되었다.
성능 평가는 생성된 이미지를 다시 분류하는 Task-specific Discriminative Classifiers를 통해 이루어졌다. Counting에는 CNN 기반 분류기를, Attribution과 Spatial Relations에는 ImageNet으로 사전 학습된 ResNet 기반 분류기를 사용하여 생성된 이미지가 텍스트 조건과 일치하는지 정밀하게 측정했다.
연구 결과, 모델의 손실 함수(Training Loss)는 지속적으로 감소함에도 불구하고 특정 작업(Counting)의 정확도는 하락하는 '최적화와 성능의 불일치' 현상이 발견되었다. 이는 확산 모델의 목적 함수가 픽셀 단위의 복원에는 충실하지만, 객체의 개별성(Objectness)을 유지하는 고차원적인 시맨틱 제약은 충분히 반영하지 못하고 있음을 기술적으로 시사한다.
한계점
본 연구는 통제된 환경인 MOSAIC 데이터셋을 중심으로 진행되었으므로, 실제 세계의 복잡한 배경이나 다양한 객체 형태가 포함된 자연어 캡션 환경에서의 일반화 능력은 추가적인 검증이 필요하다. 또한, 90M 규모의 상대적으로 작은 모델을 사용했으므로 초거대 모델에서의 스케일링 법칙이 동일하게 적용되는지에 대한 탐구가 제한적이다.
실무 활용
확산 모델을 활용한 이미지 생성 서비스에서 다중 객체 및 복잡한 레이아웃 제어 성능을 개선하기 위한 데이터 설계 가이드라인으로 활용될 수 있다.
- 전자상거래 제품 이미지 생성 시 여러 상품의 색상과 배치를 정확하게 제어하기 위한 데이터 증강 전략 수립
- 교육용 콘텐츠 제작을 위한 정확한 객체 개수 및 공간 관계 표현 모델 파인튜닝
- ControlNet이나 Layout-to-Image 모델 설계 시 공간적 유도 편향(Spatial Inductive Bias)의 중요성 검증
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.