핵심 요약
기존 디퓨전 모델은 입력 내용과 상관없이 정해진 단계를 기계적으로 반복하지만, CoTj는 이미지의 복잡도에 따라 연산 자원을 다르게 배분하는 '계획 단계'를 도입했습니다. 이를 통해 단순한 배경은 빠르게 처리하고 복잡한 피사체에는 계산을 집중하여, 추가 학습 없이도 생성 품질을 높이고 불필요한 계산 낭비를 줄였습니다.
왜 중요한가
기존 디퓨전 모델은 입력 내용과 상관없이 정해진 단계를 기계적으로 반복하지만, CoTj는 이미지의 복잡도에 따라 연산 자원을 다르게 배분하는 '계획 단계'를 도입했습니다. 이를 통해 단순한 배경은 빠르게 처리하고 복잡한 피사체에는 계산을 집중하여, 추가 학습 없이도 생성 품질을 높이고 불필요한 계산 낭비를 줄였습니다.
핵심 기여
Diffusion DNA를 통한 고차원 상태 공간의 저차원 매핑
고차원의 노이즈 매니폴드를 각 단계별 노이즈 제거 난이도를 수치화한 저차원 시그니처인 Diffusion DNA로 변환하여, 복잡한 생성 과정을 계산 가능한 형태로 단순화했다.
그래프 이론 기반의 최적 샘플링 경로 탐색
생성 과정을 유향 비순환 그래프(DAG)로 모델링하고 최단 경로 알고리즘을 적용하여, 주어진 연산 예산 내에서 전체 오차를 최소화하는 최적의 타임스텝 시퀀스를 결정한다.
Predict-Plan-Execute 추론 패러다임 도입
실제 생성 전 가벼운 예측기로 Diffusion DNA를 추정하고 계획을 수립한 뒤 실행하는 구조를 통해, 베이스 모델의 재학습 없이도 입력 프롬프트에 최적화된 적응형 샘플링을 구현했다.
핵심 아이디어 이해하기
기존 디퓨전 모델은 '시스템 1'처럼 직관적이고 고정된 스케줄에 따라 작동한다. 이는 마치 요리사가 레시피의 복잡도와 상관없이 모든 재료를 똑같이 10분씩 조리하는 것과 같아, 간단한 재료는 너무 익고 복잡한 재료는 덜 익는 비효율이 발생한다. 이 논문은 '시스템 2'와 같은 숙고형 플래닝을 도입하여 이 문제를 해결한다.
핵심은 'Diffusion DNA'라는 개념이다. 이는 각 타임스텝에서 모델이 정답 이미지를 얼마나 잘 복구할 수 있는지 나타내는 '복구 난이도'의 지도다. 이 지도를 바탕으로 생성 과정을 하나의 유향 비순환 그래프(DAG)로 그린다. 각 지점 사이의 이동 비용은 '이상적인 경로에서 벗어나는 정도'로 정의된다.
이제 생성 문제는 이 지도에서 목적지까지 가장 적은 비용으로 도달하는 '최단 경로 찾기' 문제가 된다. 결과적으로 프롬프트가 단순하면 지름길을 택해 빠르게 생성하고, 프롬프트가 복잡하면 세밀한 단계를 거쳐 품질을 높이는 유연한 생성이 가능해진다. 이는 고정된 스케줄이 가진 연산 자원 오배분 문제를 근본적으로 해결한다.
방법론
Diffusion DNA 정의: 특정 프롬프트 조건 하에서 각 타임스텝 t의 예상 재구성 오차 C(t)를 Diffusion DNA로 정의한다. 이는 고차원 상태 공간을 대표하는 저차원 대리자(Proxy) 역할을 수행한다.
Super-Node DAG 구축: 모든 가능한 타임스텝 전이를 노드와 에지로 구성된 유향 비순환 그래프(DAG)로 변환한다. 에지의 가중치(비용) W(t, k)는 현재 상태에서 다음 상태로 점프할 때 발생하는 궤적 이탈 비용으로 계산된다. [타임스텝 t와 k 입력 → s(t,k) * C(t) 계산 → 전이 비용 출력 → 해당 스텝의 오차 기여도 의미]
최단 경로 최적화: 다이나믹 프로그래밍을 통해 전체 경로 비용의 합을 최소화하는 최적의 타임스텝 시퀀스 P*를 찾는다. 이는 고정된 단계 수(Fixed-Step) 내 최적화 또는 목표 품질 달성을 위한 최소 단계(Adaptive-Length) 탐색을 모두 지원한다.
Predict-Plan-Execute: 추론 시 3층 MLP 구조의 가벼운 예측기가 프롬프트 임베딩을 입력받아 Diffusion DNA를 예측한다. [프롬프트 임베딩 입력 → MLP 연산 → Diffusion DNA 벡터 출력 → 해당 프롬프트의 생성 난이도 분포 의미] 이후 그래프 플래닝을 거쳐 실제 디퓨전 모델을 실행한다.
주요 결과
GenEval 벤치마크 결과, Qwen-Image 모델에서 10단계 샘플링 시 기존 Euler 방식(0.70) 대비 CoTj(0.85)가 훨씬 높은 성능을 보였으며, 이는 50단계 Euler 결과와 대등한 수준이다. 증류된 모델인 Z-Image-Turbo에서도 2단계만으로 기존 4단계 수준의 품질을 달성했다.
비디오 생성(Wan2.2) 실험에서 10프레임 생성 시 Imaging Quality 점수가 59.81에서 60.29로 향상되었으며, 시각적으로도 초기 프레임의 구조적 불안정성과 색상 왜곡이 크게 개선됨을 확인했다.
효율성 분석 결과, Diffusion DNA 예측기는 약 0.96M의 파라미터와 0.073ms의 지연 시간만을 가지며, 이는 전체 생성 시간 대비 무시할 수 있는 수준의 오버헤드임이 증명됐다.
실무 활용
추가 학습 없이 기존 디퓨전 모델의 샘플링 스케줄러만 교체하여 즉각적인 품질 향상과 속도 최적화가 가능하다. 특히 저사양 기기에서 적은 단계로 고품질 이미지를 생성해야 하는 환경에 매우 유용하다.
- 모바일 기기에서의 실시간 고품질 이미지 생성 서비스
- 비디오 생성 모델의 초기 프레임 일관성 및 모션 안정성 강화
- 프롬프트 복잡도에 따른 동적 연산 자원 할당 시스템 구축
- 기존 학습된 디퓨전 모델의 추론 효율성 개선을 위한 플러그인
기술 상세
Diffusion DNA는 C(t) = E[||x_0_hat(x_t*, t) - x_0||^2]로 정의되며, 이는 정답 매니폴드 상의 이상적인 궤적(x_t*)에서의 단일 스텝 재구성 오차를 의미한다.
Trajectory Correction Cost W(t, k)는 테일러 전개를 통해 s(t, k) * C(t)로 근사된다. 여기서 s(t, k)는 타임스텝 간격에 따른 시간적 레버(Temporal Lever)로, Linear Flow Matching의 경우 ((t-k)/t)^2의 형태를 갖는다.
이론적으로 'On-Manifold Correction Assumption'을 증명하여, 고차원 노이즈 공간에서의 복잡한 탐색을 저차원 타임스텝 인덱스 상의 다이나믹 프로그래밍 문제로 단순화할 수 있음을 보였다.
실험을 통해 프롬프트의 시맨틱 임베딩과 Diffusion DNA 사이의 상관관계가 매우 낮음(r=0.046)을 발견했는데, 이는 생성 난이도가 단순한 텍스트 의미를 넘어선 복잡한 비선형적 특성임을 시사한다.
한계점
현재 CoTj는 추론 시점에 Diffusion DNA를 예측하기 위해 별도의 가벼운 MLP 예측기를 학습해야 하며, 이는 각 베이스 모델마다 개별적으로 수행되어야 한다. 또한, 매우 극단적인 도메인 변화가 있는 프롬프트에 대해서는 예측기의 일반화 성능이 제한될 수 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료