핵심 요약
기존의 Flow Matching 기법은 고정된 Euclidean 거리를 기준으로 학습하여 데이터의 실제 구조를 완벽히 파악하지 못하고 이상치 샘플을 생성하는 문제가 있었다. 이 논문은 학습 가능한 Discriminator를 도입한 CAFM을 통해 데이터 분포를 더 정확하게 모델링함으로써, 추가적인 가이던스 없이도 생성 이미지의 품질과 정밀도를 획기적으로 향상시켰다.
왜 중요한가
기존의 Flow Matching 기법은 고정된 Euclidean 거리를 기준으로 학습하여 데이터의 실제 구조를 완벽히 파악하지 못하고 이상치 샘플을 생성하는 문제가 있었다. 이 논문은 학습 가능한 Discriminator를 도입한 CAFM을 통해 데이터 분포를 더 정확하게 모델링함으로써, 추가적인 가이던스 없이도 생성 이미지의 품질과 정밀도를 획기적으로 향상시켰다.
핵심 기여
Continuous Adversarial Flow Models (CAFM) 제안
연속 시간 흐름 모델에 적대적 학습(Adversarial Training)을 최초로 적용하여, 고정된 MSE 손실 함수 대신 학습된 Discriminator가 생성 과정을 가이드하도록 설계했다.
Jacobian-Vector Product (JVP) 기반의 Discriminator 설계
Discriminator가 속도장(Velocity Field)의 미분 공간에서 작동하도록 JVP를 활용하여 설계함으로써, 연속 시간 모델에서도 안정적인 적대적 학습이 가능하도록 구현했다.
Post-training 효율성 입증
기존에 학습된 Flow Matching 모델을 단 10 epoch의 CAFM 미세 조정을 통해 성능을 비약적으로 향상시킬 수 있음을 증명하며 실무적 효율성을 확보했다.
핵심 아이디어 이해하기
기존 Flow Matching은 노이즈에서 데이터로 가는 경로를 직선으로 가정하고, 모델이 예측한 속도와 실제 속도 사이의 Euclidean 거리를 줄이는 방향으로 학습한다. 하지만 데이터가 존재하는 실제 공간(Manifold)은 단순한 직선 구조가 아니며, 단순한 거리 기반 손실 함수는 모델이 데이터 분포 밖의 엉뚱한 샘플을 생성하게 만드는 원인이 된다.
CAFM은 이 문제를 해결하기 위해 GAN에서 사용하는 Discriminator 개념을 연속 시간 흐름에 도입한다. Discriminator는 단순히 이미지가 진짜인지 가짜인지를 판별하는 것을 넘어, 생성 모델이 나아가야 할 '방향'이 실제 데이터 분포를 향하고 있는지 판단한다. 이는 고정된 자(Euclidean metric) 대신, 데이터의 특성을 이해하고 상황에 따라 변하는 유연한 평가 지표를 갖게 되는 것과 같다.
결과적으로 모델은 데이터의 세밀한 질감이나 구조적 특징을 더 잘 포착하게 된다. ImageNet 256px 실험에서 가이던스 없는 FID 점수가 기존 8.26에서 3.63으로 절반 이하로 떨어지는 성과를 거두었으며, 이는 모델이 데이터의 본래 분포를 훨씬 더 충실하게 재현하고 있음을 의미한다.
방법론
CAFM은 생성기 G와 판별기 D를 교대로 학습시키는 minimax 게임 구조를 가진다. 생성기 G는 Flow Matching과 동일하게 상태 x_t와 시간 t를 입력받아 속도 v_t를 예측하며, 판별기 D는 특정 상태에서의 흐름이 실제 데이터의 흐름인지 생성된 흐름인지를 구분한다.
연속 시간에서의 판별을 위해 Jacobian-Vector Product (JVP)를 도입했다. 판별기 D(x_t, t)의 JVP인 D_jvp(x_t, t, v_t, 1)을 계산하는데, 이는 [상태 x_t, 시간 t, 속도 v_t를 입력으로] → [D의 x와 t에 대한 편미분과 속도의 내적 연산을 수행해] → [스칼라 로그짓 값을 얻고] → [이 값이 해당 시점의 흐름이 얼마나 사실적인지를 나타내는 지표]가 된다.
학습 안정성을 위해 RMSNorm을 Discriminator에 적용하고, Centering Penalty를 추가하여 판별기 출력이 발산하지 않도록 제어했다. 또한 Optimal Transport Regularization을 통해 생성기가 최소 노름 솔루션을 선택하도록 유도하여 고차원 데이터에서의 수렴 속도를 개선했다.
주요 결과
ImageNet 256px 벤치마크에서 잠재 공간 모델인 SiT를 post-training한 결과, 가이던스 없는 FID가 8.26에서 3.63으로 개선되었으며, 픽셀 공간 모델인 JiT 역시 7.17에서 3.57로 성능이 향상되었다. 이는 Classifier-Free Guidance(CFG) 없이도 매우 높은 품질의 샘플 생성이 가능함을 보여준다.
텍스트-이미지 생성 작업에서도 GenEval 점수가 0.81에서 0.85로 상승하고, DPG 점수가 83.7에서 85.2로 개선되는 등 텍스트 정렬 성능과 이미지 품질이 동시에 향상되었다. 특히 적은 수의 epoch(10 epoch)만으로도 이러한 성능 향상을 달성하여 post-training 기법으로서의 강력한 효율성을 입증했다.
관련 Figure

기존 Flow Matching은 형태가 뭉개지거나 이상한 샘플을 생성하는 반면, CAFM은 훨씬 더 선명하고 구조적으로 정확한 이미지를 생성한다. 이는 CAFM이 데이터의 실제 분포를 더 잘 학습했음을 시각적으로 증명한다.
가이던스 없이 생성된 Flow Matching(상단)과 CAFM(하단)의 이미지 비교

FM과 CAFM의 FID 하락 곡선을 비교하면, CAFM이 FM보다 초기 수렴은 느릴 수 있으나 최종적으로 도달하는 FID 점수가 훨씬 낮음을 보여준다. 이는 적대적 학습이 더 정교한 최적화 지점에 도달하게 함을 나타낸다.
학습 과정에 따른 FID 점수 변화 그래프
기술 상세
CAFM은 기존 Adversarial Flow Models(AFM)의 이산 시간 한계를 연속 시간으로 확장한 연구이다. 핵심은 속도 v_t를 판별기의 입력으로 직접 넣는 대신, 판별기 D의 방향 도함수(Directional Derivative) 공간에서 판별을 수행하는 것이다. 이는 판별기가 스칼라 포텐셜 장을 학습하고, 생성기는 이 포텐셜이 가장 가파르게 상승하는 방향으로 속도장을 최적화하도록 만든다.
수학적으로 D_jvp는 ∂D/∂x * v_t + ∂D/∂t를 계산하며, 이는 속도 v_t가 위치 x_t의 시간 미분이라는 물리적 특성을 정확히 반영한다. 실험적으로 Discriminator에 LayerNorm 대신 RMSNorm을 사용하는 것이 JVP 계산 시 발생하는 그래디언트 스파이크를 억제하고 학습을 안정화하는 데 필수적임을 확인했다. 또한, 학습 시 Discriminator를 생성기보다 더 자주 업데이트(N=16)하는 것이 수렴에 도움이 된다.
한계점
CAFM이 모델의 일반화 능력을 크게 개선하지만, 데이터 밀도가 매우 낮은 이상치(Outlier) 영역에서는 여전히 부적절한 이미지를 생성할 수 있다. 또한, Discriminator 네트워크 추가와 JVP 계산으로 인해 학습 시 Flow Matching 대비 약 4.8배의 연산 시간이 더 소요된다는 단점이 있다.
실무 활용
기존에 학습된 대규모 Flow Matching 기반 이미지/비디오 생성 모델의 품질을 적은 비용으로 개선하는 데 즉시 활용 가능하다.
- 기존 SiT, JiT 등 Flow Matching 모델의 생성 이미지 선명도 및 세부 묘사 개선
- 가이던스(Guidance) 연산 비용을 줄이면서도 고품질 이미지를 생성해야 하는 실시간 서비스
- 데이터 분포가 복잡한 특정 도메인(의료, 정밀 사진 등)의 생성 모델 미세 조정
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.