TL;DR
Flow matching의 엔드포인트 평균 이동으로 제어 신호를 얻을 수 있으며, 참조 은행을 바꿔 색상, 형태, 구조 등 다양한 속성을 추가 학습 없이도 조정할 수 있다. 이는 데이터 주도(adaptive) 방식으로 파라미터 업데이트 없이도 생성 품질을 유지하며, 실무에 즉시 적용 가능한 제어 인터페이스를 제공한다.
왜 중요한가
Flow matching의 엔드포인트 평균 이동으로 제어 신호를 얻을 수 있으며, 참조 은행을 바꿔 색상, 형태, 구조 등 다양한 속성을 추가 학습 없이도 조정할 수 있다. 이는 데이터 주도(adaptive) 방식으로 파라미터 업데이트 없이도 생성 품질을 유지하며, 실무에 즉시 적용 가능한 제어 인터페이스를 제공한다.
핵심 기여
Mean shift as a guidance mechanism
Guidance term is defined as the difference between the endpoint mean of the reference distribution ρ_t and the training distribution p1, enabling a data-driven drift correction without gradient-based rewards or additional models.
Reference-Mean Guidance (RMG)
Training-free method that computes the endpoint-mean shift from a finite reference bank and applies a closed-form correction to the pretrained velocity field: u^π_t(x) ≃ u^θ_t(x) + β_t (μ̂_ρ_t(x) − μ^θ_t(x)) /(1 − t).
Semi-Parametric Guidance (SPG)
Amortizes the same mean-guidance idea via a reference-mean anchor with an explicit attention-based mechanism and a learned residual refiner, preserving unconditional generation quality while enabling inference-time reference-set control.
Empirical validation across modalities
Demonstrates training-free control on FLUX.2-klein (4B) with reference sets controlling color/identity/style, and shows AFHQv2 parity with DiT-B/4 in unconditional quality while enabling reference swap at inference.
핵심 아이디어 이해하기
Flow matching에서 엔드포인트 평균 µ_t(x)은 샘플 경로의 방향을 결정한다. 선형 브리지를 가정하면 u_t(x) = (µ_t(x) − x)/(1 − t)로 표현되며, 엔드포인트 평균을 바꾸면 흐름을 그대로 따라간다. 본 논문은 대표 샘플의 엔드포인트 평균 µρ_t(x)를 이용해 목표 분포의 엔드포인트 평균 µπ_t(x)로의 변화를 정의하고, 이를 통해 속도장을 보정하는 방식으로 제어를 구현한다. 확률적 혼합을 통해 µπ_t(x) = (1 − γ_t)µ_t(x) + γ_tµρ_t(x)로의 형식적 근사를 얻고, 이를 u^π_t(x) = u_t(x) + γ_t c_t (µρ_t(x) − µ_t(x)) / (1 − t)로 구현한다. 이 방식은 외부 보상이나 classifier가 필요 없이 데이터 기반으로 컨트롤 신호를 생성한다. SPG는 같은 원리를 앵커-기반 교차 주의(attention)로 확장하고, 잔여 보정기를 추가로 학습해 참조 세트의 효과를 더 강건하게 유지한다.
방법론
단계별 요약
- 전체 접근 방식: affine(또는 선형) 브리지를 사용한 확률 경로에서 엔드포인트 평균 µ_t(x)와 쌍을 이루는 속도 u_t(x)를 정의한다. [입력] x0 ∼ p0, x1 ∼ p1, xt = α_t x0 + β_t x1. [출력] 샘플 x1에 대해 xt = x인 조건부에서의 평균을 구해 u_t(x) = E[ x˙_t | x_t = x ].
- 근거-평균 제어(RMG): ρ1에 의해 정의된 참조 은행 R로부터 µ̂_ρ_t(x)를 계산하고, β_t(또는 γ_t) 스케줄에 따라 u^π_t(x) ≈ u^θ_t(x) + β_t (µ̂_ρ_t(x) − µ^θ_t(x)) /(1 − t)로 보정한다. 이는 엔드포인트 평균의 차이를 통해 흐름을 조정하는 방식이다.
- 지수적 혼합의 대안: p̂_λ = (1 − λ) p1 + λ ρ1를 이용한 엔드포인트 수준의 산술 혼합 역시 같은 보정 효과를 낸다. 이때 µ^λ_t(x) = (1 − ω^_t(x)) µ_t(x) + ω^_t(x) µ^ρ_t(x)이며, ω^*_t(x) = λ ρ_t(x) / ((1 − λ) p_t(x) + λ ρ_t(x)).
- SPG의 구현: x¯ = Attn(q̃, k̃, ṽ)로 교차 어텐션으로 앵커를 계산하고, µ_θ_t(xt, R) = (1 − g_t) xt + g_t x¯ + α_t f_θ(x¯, xt, t)로 최종 엔드포인트를 예측한다. Leave-one-out 구조(L)와 보정 손실 Lµ, Lref를 합쳐 학습한다.
관련 Figure

이 그림은 Reference-Guided Flow Matching의 작동 원리를 직관적으로 보여준다. 참조 샘플이 엔드포인트 평균을 어떻게 변화시키고, 프리트레인 모델의 흐름이 참조 은행에 따라 달라지는지 한 눈에 확인할 수 있다.
참조-가이드 흐름 매칭의 핵심 다이어그램으로, 노이즈 상태에서 출력까지의 흐름과 참조 샘플이 연결되는 구조를 시각화한다.
주요 결과
주요 실험 요약
- Mechanistic validation: 2-moons 데이터에서 참조 은행의 구성이 흐름 필드를 명확하게 좌우하며, M=5의 소수 참조로도 hard-filter 근사에 접근한다. MNIST(0/1)에서도 M=50의 soft-labeled 참조로 분류 제어가 가능하다.
- FLUX.2-klein(4B)에서 RMG를 적용하면 제어 가능한 출력의 변화가 Prompts에 따라 색상, 객체 정체성, 스타일에 대해 구조적으로 일관되게 나타난다. GenEval에서 20-이미지 은행으로 구성된 참조 은행이 텍스트-프롬프트와 독립적으로 구조적 제어를 가능하게 한다. SPG는 AFHQv2에서 DiT-B/4와 동일 수준의 unconditional 품질을 유지하면서 참조 은행의 구성에 따른 제어를 가능하게 한다.
- 실험은 또한 reference-set의 크기(M)가 커질수록 LPIPS 다양성이 증가하고, 참조 세트의 조합(예: 색상/형태/구조)으로 출력 분포를 연속적으로 조절할 수 있음을 보여준다.
관련 Figure

참조 은행의 구성 변화가 엔드포인트 평균과 최종 출력에 미치는 영향을 시각적으로 보여준다. 같은 프롬프트에서 참조 은행을 바꾸면 색상 속성 같은 속성이 변경됨을 확인할 수 있다.
참조 은행 교환에 따른 Elephant 이미지의 색상 변화 예시(핑크 엘리펀트와 baseline의 비교).

참조 은행을 통한 구조 priors의 전달이 색상이나 스타일뿐 아니라 형태-구조 측면에서도 제어 가능하다는 점을 시각적으로 보여준다.
Keyhole 구성에서의 구조 제어 예시 이미지.

참조 은행의 구성이 결과 분포에 미치는 영향을 실험적으로 보여주는 그래프와 샘플을 포함한다. 은행-벤치의 구성 변화가 생성 분포를 변화시키는지 확인할 수 있다.
GenEval 프로토콜의 은행-벤치 Bear 예시 및 근거 은행 구성.
기술 상세
A-layer: 논문은 affine 브리지를 일반화된 형태로 제시하며, xt = αt x0 + βt x1에서 αt, βt의 도함수들에 의해 ut(x)와 µt(x)의 관계를 도출한다. A.1에서 제시한 prop 3.1의 증명은 uv_t(x) = atx + ct µ_t(x) 형태를 도출한다. A.2: µ̂_t(x) = Σ_n w_t^(n)(x) x^(n)로 근사가능하며, w_t^(n)(x) = softmax_n [−||x − t x^(n)||^2/(1−t)^2]의 형태로 도출된다. A.3: reference-mean guided dynamics에서 π_t(x) = pt(x|x1) π(x1) dx1를 도입하고, score-to-mean 맵을 이용해 µ^π_t(x) = (1 − γ_t) µ_t(x) + γ_t µ_ρ_t(x)로 설정한다. 이를 u^π_t(x) = atx + ct µ^π_t(x)로 변환하고, geometric mixture의 경우 γt를 이용해 최종 보정 u^π_t(x) = ut(x) + γt ct (µ_ρ_t(x) − µ_t(x))/(1 − t)로 표현한다. A.4: 엔드포인트 레벨의 기하학적 혼합은 π(x1) ∝ p1(x1)^(1−γt) ρ1(x1)^(γt)로 정의되며, Gaussian 브리지 하에서 µ^π_t(x) = (1 − γt) µ_t(x) + γt µ^ρ_t(x)로 수렴한다. SPG 구현은 교차-attention으로 x¯를 산출하고, Lµ, Lref의 손실로 anchor와 refiner를 함께 학습한다. SPG의 실험은 AFHQv2에서 참조-은행 기반의 제어를 수행하면서도 질은 DiT-B/4와 동등하게 유지한다.
한계점
참조-평균 가이드는 참조 세트의 품질에 크게 의존하며, 큰 은행의 계산 비용이 증가한다. 참조 세트에서 nuisance artifacts가 포함될 수 있으며, SPG는 잔여 보정기를 통해 이를 완화하지만 여전히 domain-specific 설계가 필요하다.
실무 활용
참조 은행을 교체함으로써 파라미터를 바꾸지 않고도 프리트레인 모델의 출력 분포를 inference-time에 제어하는 방법을 제시한다. RMG는 즉시 적용 가능하고 SPG는 학습 가능한 확장을 제공한다.
- 색상/스타일/개체 정체성 등 속성 제어를 위한 참조 은행 교체
- 구조적 제어: 실루엣, 손 모양, 포즈 등 소규모 포즈 priors의 주입
- 합성 공간의 구성요소 간 관계 제어: GenEval의 공간 배치/관계 제어
- 무작위 배경 등 nuisance artifact의 제거 및 조절
- 지속적 참조-기반 도메인 적응(무매개 파라미터 업데이트 없이)
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.