비대칭 흐름 모델링

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

고차원 픽셀 공간에서의 velocity 예측은 거대한 노이즈 차원으로 인해 네트워크 내부 상태를 오염시키고 학습 효율을 저하시킨다. AsymFlow는 데이터 예측을 전체 차원으로 유지하고 노이즈 예측을 저랭크 서브스페이스로 제한해 학습 안정성과 샘플 품질을 동시에 향상시키며, latent-flow를 픽셀 공간으로 파인튜닝하는 경로를 제시한다. 이를 통해 픽셀 공간 이미지 생성을 대규모 latent 모델에서 효과적으로 확장할 수 있다.

왜 중요한가

핵심 기여

Rank-asymmetric velocity parameterization

데이터 예측(term) 영역은 전체 차원으로 두고 노이즈 예측은 저랭크 서브스페이스에 제한하는 uA := P ϵ − x0를 제시한다. 네트워크는 uA를 예측하고, u를 u = P uA + (I − P) xt + uA/σt 형태로 복원해 손실을 계산하고 샘플링에 사용한다. 이로써 고차원 픽셀 공간에서의 속도 예측 부담을 낮추되 전체 속도 정보를 보존한다.

Latent-to-pixel finetuning 경로 제공

사전 학습된 latent flow 모델을 픽셀 공간으로 변환하는 실용적 방법을 제시한다. Procrustes 정렬로 저랭크 픽셀 기반의 lift A를 구성하고, 입력/출력 컨버전으로 latent 네트워크를 초기화한다. 파인튜닝은 두 가지 목표를 가진다: 낮은 수준의 프로젝션 차이를 보정하고, 고수준의 내용/구조를 보존한다.

ImageNet 256×256에서의 최첨단 성능

Ri=8의 AsymFlow-H/16을 REPA 손실과 함께 사용 시 1.57 FID를 달성하며, PixelDiT-계열의 기존 픽셀 공간 모델을 크게 능가한다. REPA를 적용하지 않을 때도 JiT 기반의 x0-prediction 대비 성능 이점이 확인된다.

픽셀-대-잠재 파인튜닝의 효율성

LATENT-TO-PIXEL 초기화로 인해 학습 시작 시점의 저랭크 픽셀 샘플이 latent 샘플과 도메인 구조를 상당 부분 공유하므로, 파인튜닝 시 저랭크-대-전체 픽셀 간의 차이를 빠르게 보정한다. 이로써 대용량 latent-flow를 픽셀 공간으로 확장하는 실용적 루트를 제공한다.

핵심 아이디어 이해하기

출발점: u = ϵ − x0인 표준 velocity-target은 고차원 픽셀 공간에서 노이즈를 직접 예측해야 하므로 네트워크에 부하를 준다. 제안: A ∈ R^{D×r}를 이용해 저랭크 서브스페이스 P = AA^T를 정의하고, uA := P ϵ − x0를 네트워크가 예측하도록 한다. 데이터 term은 전체 차원에서 처리되고 노이즈 항만 저랭크로 제한되므로 예측이 더 안정적이다. 복원: u = P uA + (I − P) xt + uA/σt로 전체 velocity를 정확히 복원한다. 엔드포인트: r = 0은 x0-prediction으로, r = D는 표준 u-prediction으로 수렴한다. Latent-to-pixel 초기화는 Trajectory coupling theorem으로, latent 흐름과 픽셀 흐름이 paired 상태에서 보존되므로 초기화가 정확하게 작동한다. 파인튜닝은 주로 저랭크 픽셀 출력과 full-rank 픽셀 타깃 간의 낮은 수준 차이를 보정하는 문제로 바뀐다.

방법론

전체 접근: AsymFlow는 데이터(term)와 노이즈(ϵ) 구성 요소를 비대칭적으로 취급하는 흐름 벨로시티 타깃 uA를 제시한다. 형태: uA := P ϵ − x0, 네트워크는 uA를 예측하고 u를 u = P uA + (I − P)(xt) + uA/σt로 변환한다. Patch-wise projection: 각 패치에 대해 저랭크 서브스페이스 A를 고정하고 P = AA^T를 적용한다. 학습은 기존 flow matching 손실 LFM = E[‖u − ŷu‖^2]를 사용하되, 저랭크 타깃에 맞춘 uA를 예측하도록 한다.

주요 결과

주요 벤치마크 및 Ablation: ImageNet 256×256 픽셀 모델에서 AsymFlow(H/16, r=8)과 JiT-H/16을 비교했으며, σmin=0.04에서 AsymFlow는 1.76(FID), JiT는 1.90(FID)을 달성했다. r=0에서 JiT 대비 성능이 크게 개선되었고, PCA 기반 저랭크 서브스페이스의 경우 FID가 2.4~~2.6대에서 최소값인 2.34~~2.36 근처를 달성했다. REPA 손실을 적용하면 1.57 FID로 최첨단을 달성한다. 또한 6.2절의 대형 텍스트-투-이미지 파인튜닝에서 AsymFLUX.2 klein은 Latent baseline 대비 HPSv3/HPSv2.1, DPG, GenEval에서 개선을 보인다. 1024×1024 텍스트-투-이미지 시스템 비교에서도 AsymFLUX.2 klein은 Latent 및 Pixel 모델 간의 성능 지표에서 우위를 보였다. DDT 픽셀 파인튜닝 대비 AsymFlow의 이미지 품질 개선이 뚜렷하며, Variance Reduction과 LPIPS Perceptual Correction의 결합이 가장 자연스러운 질감을 유도한다.

기술 상세

구조: A ∈ R^{D×r}이며 ATA = Ir, P = AA^T로 정의한다. u = ϵ − x0, uA = P ϵ − x0. 변환: u = P uA + (I − P)(xt) + uA/σt. 패치 단위로 저랭크 서브스페이스를 공유하며, Latent-to-Pixel 초기화 시 Procrustes 정렬을 통해 A를 추정하고 스케일 보정을 적용한다. Loss: LVR과 LPIPS를 결합한 최종 손실 L = LVR + ωP LPIPS로, 시간 스케일링, 기준점(xL0), 보정 계수 λ 등을 학습에 포함한다. Trajectory coupling: Theorem 1에 의해 zt와 xLt 간의 관계가 xLt = A zt + σt(I − P) ϵ로 유지되어 초기화 시 동일한 궤적을 갖는다.

한계점

잠재 공간이 픽셀 구조를 잘 보존하지 않는 RAE 모델과 같은 경우, 패치 수준 선형 리프가 잘 작동하지 않을 수 있다. Latent-to-pixel 초기화 시 스케일 보정이 완벽하지 않으면 미세구조 보정에 한계가 있을 수 있다.

실무 활용

AsymFlow는 latent flow를 픽셀 공간으로 확장하는 실용적인 경로를 제공한다. 파이프라인은 고해상도 픽셀 생성에 적합하고, latent-계열 모델의 세부 묘사를 보존하면서 저차원 노이즈 보정을 수행한다.

고해상도(예: 256×256 이상) 픽셀 공간 이미지 생성
텍스트-투-이미지(T2I) 시스템에서 픽셀 공간의 품질 제어 및 개선
latent-to-pixel 파인튜닝으로 기존 latent flow 모델의 재배치
저랭크 노이즈 제어를 통한 샘플링 안정화 및 속도 개선

코드 공개 여부: 공개

코드 저장소 보기

키워드

flow-based generation (Flow 기반 생성)velocity prediction (velocity 예측)high-dimensional noise (고차원 노이즈)low-rank subspace (저랭크 서브스페이스)pixel-space diffusion (pixel-space 확산)latent-to-pixel finetuning (latent-to-pixel 파인튜닝)