핵심 요약
현재의 이미지 생성 모델은 겉보기에는 화려하지만 공간적 추론이나 물리적 인과관계 이해에는 여전히 취약합니다. 이 논문은 단순한 픽셀 생성을 넘어 물리 법칙과 상호작용을 이해하는 '시각적 지능'으로 나아가기 위한 5단계 발전 경로와 기술적 과제를 체계적으로 제시하여 차세대 AI 연구의 이정표를 제공합니다.
왜 중요한가
현재의 이미지 생성 모델은 겉보기에는 화려하지만 공간적 추론이나 물리적 인과관계 이해에는 여전히 취약합니다. 이 논문은 단순한 픽셀 생성을 넘어 물리 법칙과 상호작용을 이해하는 '시각적 지능'으로 나아가기 위한 5단계 발전 경로와 기술적 과제를 체계적으로 제시하여 차세대 AI 연구의 이정표를 제공합니다.
관련 Figure

단순 텍스트-이미지 생성(L1)부터 물리적 인과관계를 반영하는 세계 모델링(L5)까지의 발전 과정을 시각화했다. 각 단계가 이전 단계의 능력을 포함하면서 새로운 역량(제어성, 일관성, 에이전트성 등)을 추가하는 계층적 구조임을 명확히 한다.
시각적 지능의 5단계 분류 체계와 각 단계별 입력/출력 예시를 보여주는 다이어그램이다.
핵심 기여
시각적 지능 5단계 분류 체계 수립
단순 텍스트-이미지 매핑(L1)부터 조건부 제어(L2), 문맥 기반 생성(L3), 에이전트적 생성(L4), 그리고 물리 법칙을 따르는 세계 모델링(L5)까지 시각적 생성 모델의 발전 단계를 정의했다.
생성 및 편집 아키텍처의 통합 분석
Diffusion, Flow Matching, Autoregressive 모델들이 어떻게 MM-DiT와 같은 통합 아키텍처로 수렴하고 있는지 분석하고, 생성과 편집이 동일한 데이터 흐름 내에서 처리되는 기술적 트렌드를 정리했다.
실제 환경 스트레스 테스트를 통한 한계 규명
지그소 퍼즐, 노선도 생성, 물리 시험 풀이 등 8가지 차원의 극한 테스트를 통해 최신 모델들이 시각적 개연성은 높지만 구조적·인과적 정확성은 부족하다는 사실을 입증했다.
데이터 중심 시각 지능 전략 제시
모델 크기 확장보다 VLM을 활용한 고품질 캡션 생성, 합성 데이터 증류, 다단계 필터링 등 데이터 밀도를 높이는 것이 성능 향상의 핵심 동력임을 확인했다.
핵심 아이디어 이해하기
기존의 이미지 생성 모델은 텍스트 Embedding과 이미지 픽셀 사이의 통계적 상관관계를 학습하는 '원자적 매핑'에 집중했다. 이는 특정 단어가 주어졌을 때 그럴듯한 픽셀 뭉치를 배치하는 데는 뛰어나지만, 물체가 왜 그 자리에 있어야 하는지나 물리적 충돌이 일어났을 때 어떤 변화가 생길지와 같은 구조적 이해가 결여되어 있다.
이 논문은 이러한 한계를 극복하기 위해 생성을 '추론'의 과정으로 재정의한다. 마치 LLM이 다음 토큰을 예측하며 논리를 전개하듯, 시각 모델도 공간 레이아웃을 먼저 계획하고(Planning), 세부 사항을 렌더링하며(Rendering), 결과가 물리적으로 타당한지 검증하는(Verification) 폐쇄 루프 에이전트 구조를 갖추어야 한다고 본다.
결과적으로 시각 AI는 단순한 화가에서 세상을 시뮬레이션하는 '세계 모델'로 진화하게 된다. 이는 모델이 중력, 유체 역학, 물체의 영속성 같은 물리적 개념을 내부적으로 내면화하여, 보이지 않는 물체의 내부 구조를 예측하거나 복잡한 인과 관계가 얽힌 시각적 문제를 해결할 수 있게 함을 의미한다.
방법론
시각적 생성의 진화를 5단계 계층 구조로 정식화했다. L1(Atomic)은 단순 매핑, L2(Conditional)는 구조적 제어 주입, L3(In-Context)은 다중 참조 및 대화형 편집, L4(Agentic)는 도구 사용 및 자기 수정 루프, L5(World-Modeling)는 물리적 인과 시뮬레이션을 특징으로 한다.
아키텍처 측면에서는 Diffusion에서 Flow Matching으로의 전환과 MM-DiT(Modality-aware DiT)의 부상을 분석했다. MM-DiT는 텍스트와 이미지 토큰을 별도의 가중치 스트림으로 처리하면서도 Joint Attention을 통해 상호 정보를 교환한다. [텍스트/이미지 입력 → MM-DiT 블록 내 독립적 투영 및 통합 어텐션 연산 → 상호 보정된 잠재 표현 출력] 과정을 통해 텍스트 지시문과 시각적 세부 사항 사이의 정렬을 극대화한다.
학습 파이프라인은 PT(Pre-training) → CT(Continued Training) → SFT(Supervised Fine-Tuning) → RL(Reinforcement Learning)의 4단계 표준 모델로 수렴하고 있다. 특히 RL 단계에서는 GRPO를 활용하여 모델의 출력을 인간의 선호도 및 논리적 정합성에 맞게 정렬한다. [모델 출력 그룹 생성 → 그룹 내 상대적 보상 계산 → 정책 경사 업데이트 → 선호도 일치도 향상] 순으로 학습이 진행된다.
관련 Figure

각 기술의 노이즈 제거 방식과 토큰 예측 구조의 차이를 설명한다. 특히 최근 트렌드인 AR 플래너와 Diffusion 렌더러를 결합한 Hybrid 방식이 에이전트적 생성의 핵심임을 강조한다.
GAN, Diffusion, Flow Matching, Autoregressive, Hybrid 등 5가지 주요 생성 패러다임의 작동 원리를 비교한 그림이다.
주요 결과
최신 폐쇄형 모델인 Nano Banana와 GPT-Image-2는 L4 단계인 에이전트적 생성 능력을 보여주었다. 특히 물리 시험 풀이 사례에서 OCR, 도표 접지, 기호 추론, 시각적 재렌더링을 하나의 워크플로로 통합하여 해결하는 능력을 입증했다.
오픈 소스 모델 중 Z-Image(6B)와 LongCat-Image(6B)는 공격적인 데이터 큐레이션과 고품질 캡션 파이프라인을 통해 20B 이상의 파라미터를 가진 모델들과 대등한 성능을 기록했다. 이는 모델 확장 법칙(Scaling Law)의 중심이 파라미터 수에서 데이터 밀도로 이동했음을 보여준다.
스트레스 테스트 결과, 모든 모델이 텍스트 렌더링과 복잡한 공간 배치(지그소 퍼즐 등)에서 가장 낮은 점수를 기록했다. 특히 다회차 편집 시 이전 단계의 오류가 누적되는 '마르코프 연쇄 드리프트' 현상이 관찰되어, 장기적 일관성 유지가 여전히 주요 과제임이 확인됐다.
기술 상세
모델 아키텍처는 DiT 기반의 통합 구조로 수렴 중이며, U-Net은 사실상 퇴출되는 추세이다. Flow Matching은 직선적 ODE 궤적을 학습함으로써 Diffusion보다 적은 단계(NFE)로 추론이 가능하며, 이는 실시간 에이전트 루프 구현에 필수적인 요소이다.
데이터 엔진은 단순 웹 스크래핑에서 '합성 엔진'으로 패러다임이 전환되었다. VLM을 사용하여 수억 개의 이미지를 정밀하게 재캡션(Recaptioning)하고, JSON 형식의 구조화된 메타데이터를 추출하여 학습에 활용한다. 이는 모델이 물체의 속성과 관계를 더 명확히 학습하게 한다.
평가 체계는 FID 같은 수치적 지표에서 VLM-as-a-Judge 및 Arena 기반의 인간 선호도 평가로 이동했다. 특히 도메인 특화 벤치마크(PhyBench, WISE 등)를 통해 모델의 물리적 상식과 세계 지식을 측정하는 시도가 늘고 있다.
관련 Figure

Encoder, Condition Module, Backbone, Decoder로 이어지는 현대적 생성 모델의 표준 구조를 제시한다. 동일한 아키텍처 내에서 입력 신호만 변경하여 T2I 생성과 이미지 편집을 모두 수행할 수 있음을 보여준다.
생성과 편집을 동시에 지원하는 통합 시각 아키텍처의 구성 요소를 보여주는 블록도이다.
한계점
현재 모델들은 통계적 개연성에 의존하여 '그럴듯해 보이는' 결과를 만드는 데 능숙하지만, 엄격한 기하학적 제약이나 물리 법칙을 준수해야 하는 작업에서는 여전히 실패한다. 또한 다회차 편집 시 픽셀 수준의 일관성을 강제할 수 있는 아키텍처적 장치가 부족하여 품질 저하가 발생한다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.