핵심 요약
기존의 소수 단계 이미지 생성 기법들은 속도를 위해 확률적 우도 프레임워크를 포기하여 학습 안정성과 품질에 한계가 있었다. NTM은 각 역과정을 가역적인 Normalizing Flow로 모델링하여 정확한 우도 학습을 유지하면서도 단 4번의 샘플링만으로 고품질 이미지를 생성한다.
왜 중요한가
기존의 소수 단계 이미지 생성 기법들은 속도를 위해 확률적 우도 프레임워크를 포기하여 학습 안정성과 품질에 한계가 있었다. NTM은 각 역과정을 가역적인 Normalizing Flow로 모델링하여 정확한 우도 학습을 유지하면서도 단 4번의 샘플링만으로 고품질 이미지를 생성한다.
핵심 기여
Normalizing Trajectory Models (NTM) 프레임워크
역과정의 각 단계를 조건부 Normalizing Flow로 모델링하여 정확한 로그 우도 학습이 가능한 새로운 생성 모델 구조를 제안했다.
Deep-Shallow 아키텍처 설계
궤적 전체를 관통하는 깊은 병렬 Predictor와 각 단계 내의 얕은 가역적 Transporter를 결합하여 연산 효율성과 표현력을 동시에 확보했다.
궤적 점수 기반 디노이징 및 증류
생성된 궤적 전체의 결합 점수를 활용한 디노이징 기법을 도입하고, 이를 경량화된 Denoiser 네트워크로 증류하여 4단계 샘플링 성능을 극대화했다.
핵심 아이디어 이해하기
Diffusion 모델은 노이즈에서 데이터를 복원할 때 수많은 작은 가우시안 단계를 거친다고 가정한다. 하지만 샘플링 단계를 줄이면 각 단계가 커지면서 실제 역확률 분포는 가우시안이 아닌 복잡하고 다봉형(multimodal)인 형태를 띠게 되어 기존 방식으로는 품질이 급격히 저하된다.
NTM은 이 문제를 해결하기 위해 각 단계를 단순한 가우시안이 아닌 'Normalizing Flow'라는 가역적 변환으로 정의한다. 이는 복잡한 분포를 단순한 가우시안 분포로 매핑하거나 그 반대로 변환할 수 있는 수학적 도구이다. 구체적으로 Transporter라는 가역 블록이 데이터 공간을 잠재 공간으로 변환하면, 그 공간에서 Predictor가 다음 단계의 분포를 예측한다.
결과적으로 NTM은 단계가 커져도 비가우시안(non-Gaussian) 특성을 정확하게 포착할 수 있다. 이는 기존의 Flow Matching 모델이 수백 단계가 필요했던 품질을 단 4단계만으로 구현할 수 있게 하며, 수학적으로 정확한 확률 밀도 계산이 가능해 학습이 매우 안정적이다.
관련 Figure

기존 Flow Matching은 4단계에서 이미지가 흐릿하게 생성되는 반면, NTM은 비가우시안 역과정을 모델링하여 4단계만으로도 50단계 수준의 선명한 이미지를 생성함을 보여준다.
Flow Matching과 NTM의 4단계 샘플링 궤적 비교
방법론
NTM은 역과정 p(xs | xt)를 조건부 Normalizing Flow로 정형화한다. 전체 구조는 공유되는 Transporter(fT)와 Predictor(fP)로 구성된다. Transporter는 입력 이미지 xs와 xt를 잠재 공간 u로 매핑하며, 이때 가역성을 보장하기 위해 TarFlow 스타일의 가역 블록을 사용한다.
Predictor는 노이즈가 섞인 표현 ut로부터 깨끗한 표현 us를 예측하는 역할을 수행한다. Predictor는 궤적 차원에서 작동하는 비인과적(non-causal) Transformer 구조를 채택하여 모든 시간 단계의 상관관계를 병렬로 처리한다. 학습 시에는 NTM 손실 함수를 최소화하는데, 이는 Predictor의 예측 오차와 Transporter 블록의 Jacobian 행렬식을 포함한 정확한 네거티브 로그 우도(NLL)이다.
[입력 이미지 x → Transporter 가역 변환 → 잠재 변수 u 생성] 과정을 거치며, [u와 시간 t → Predictor 연산 → 다음 단계 u_hat 예측]을 수행한다. 최종적으로 [u_hat → Transporter 역변환 → 생성 이미지 x_hat]을 얻는다. 이 과정에서 계산된 Jacobian 행렬식은 확률 밀도의 변화량을 보정하여 모델이 정확한 데이터 분포를 학습하게 한다.
주요 결과
NTM은 256x256 해상도의 ImageNet 클래스 조건부 생성 실험에서 16단계 샘플링 시 2.80 FID를 기록하며, 수백 단계가 필요한 기존 Normalizing Flow 모델인 STARFlow(5.56 FID)를 크게 앞질렀다. 4단계 샘플링만으로도 3.83 FID를 달성하여 효율성을 입증했다.
텍스트-이미지 생성 벤치마크인 GenEval에서 NTM은 4단계 샘플링만으로 0.82점을 기록했다. 이는 SDXL(0.55)이나 FLUX.1-dev(0.66)와 같은 강력한 Diffusion 기반 모델들의 소수 단계 결과보다 높은 수치이며, 복잡한 프롬프트에 대한 충실도와 이미지 품질이 우수함을 보여주었다.
관련 Figure

복잡한 텍스트 프롬프트(예: 시계, 동물, 풍경 등)에 대해 NTM이 단 4단계의 디노이징만으로도 높은 질감과 구도를 가진 이미지를 생성할 수 있음을 증명한다.
NTM으로 생성된 다양한 텍스트-이미지 샘플들
기술 상세
NTM 아키텍처는 3072 차원의 Hidden Dimension을 가진 3개의 블록으로 구성된다. 각 블록 내에서 Transporter는 4개의 레이어를 가진 2개의 가역 블록을 사용하며, Predictor는 24개 레이어의 Transformer를 사용한다. Predictor는 궤적 전체를 입력으로 받아 시간 단계 간의 정보를 교환한다.
학습 시에는 사전 학습된 FLUX.2-klein(4B) 모델을 초기값으로 사용하는 파인튜닝 레시피를 제공한다. 이때 Mean-alignment Auxiliary Loss를 추가하여 학습 초기 단계에서 모델이 기존 Diffusion 솔루션에서 너무 멀어지지 않도록 고정(anchor)한다. 샘플링 시에는 Classifier-free Guidance를 적용하며, 이를 위해 가우시안 커플링 파라미터인 평균과 분산을 직접 조정하는 Logits-guided formulation을 사용한다.
한계점
NTM은 단일 단계(T=1) 생성 시에는 성능이 급격히 저하되는 한계를 보인다. 이는 얕은 Transporter 용량이 데이터 분포 전체를 한 번에 캡처하기에 부족하기 때문이며, 4~8단계가 성능과 속도의 최적 지점(sweet spot)으로 분석되었다.
관련 Figure

T=1일 때 Transporter의 용량 부족으로 인해 이미지가 뭉개지는 현상을 보여주며, 모델의 구조적 한계와 최적의 단계 설정 필요성을 설명한다.
NTM의 1단계 생성 실패 사례
실무 활용
NTM은 적은 연산량으로 고품질 이미지를 생성해야 하는 실시간 그래픽스나 모바일 환경의 생성형 AI 서비스에 적합하다.
- 모바일 기기 내 실시간 텍스트-이미지 생성 서비스
- 정확한 확률 밀도 계산이 필요한 이상 탐지(Anomaly Detection) 시스템
- 기존 Diffusion 모델의 생성 속도를 개선하기 위한 모델 증류 및 파인튜닝
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.