TL;DR
고차원 픽셀 공간에서의 velocity 예측은 거대한 노이즈 차원으로 인해 네트워크 내부 상태를 오염시키고 학습 효율을 저하시킨다. AsymFlow는 데이터 예측을 전체 차원으로 유지하고 노이즈 예측을 저랭크 서브스페이스로 제한해 학습 안정성과 샘플 품질을 동시에 향상시키며, latent-flow를 픽셀 공간으로 파인튜닝하는 경로를 제시한다. 이를 통해 픽셀 공간 이미지 생성을 대규모 latent 모델에서 효과적으로 확장할 수 있다.
왜 중요한가
고차원 픽셀 공간에서의 velocity 예측은 거대한 노이즈 차원으로 인해 네트워크 내부 상태를 오염시키고 학습 효율을 저하시킨다. AsymFlow는 데이터 예측을 전체 차원으로 유지하고 노이즈 예측을 저랭크 서브스페이스로 제한해 학습 안정성과 샘플 품질을 동시에 향상시키며, latent-flow를 픽셀 공간으로 파인튜닝하는 경로를 제시한다. 이를 통해 픽셀 공간 이미지 생성을 대규모 latent 모델에서 효과적으로 확장할 수 있다.
핵심 기여
Rank-asymmetric velocity parameterization
데이터 예측(term) 영역은 전체 차원으로 두고 노이즈 예측은 저랭크 서브스페이스에 제한하는 uA := P ϵ − x0를 제시한다. 네트워크는 uA를 예측하고, u를 u = P uA + (I − P) xt + uA/σt 형태로 복원해 손실을 계산하고 샘플링에 사용한다. 이로써 고차원 픽셀 공간에서의 속도 예측 부담을 낮추되 전체 속도 정보를 보존한다.
Latent-to-pixel finetuning 경로 제공
사전 학습된 latent flow 모델을 픽셀 공간으로 변환하는 실용적 방법을 제시한다. Procrustes 정렬로 저랭크 픽셀 기반의 lift A를 구성하고, 입력/출력 컨버전으로 latent 네트워크를 초기화한다. 파인튜닝은 두 가지 목표를 가진다: 낮은 수준의 프로젝션 차이를 보정하고, 고수준의 내용/구조를 보존한다.
ImageNet 256×256에서의 최첨단 성능
Ri=8의 AsymFlow-H/16을 REPA 손실과 함께 사용 시 1.57 FID를 달성하며, PixelDiT-계열의 기존 픽셀 공간 모델을 크게 능가한다. REPA를 적용하지 않을 때도 JiT 기반의 x0-prediction 대비 성능 이점이 확인된다.
픽셀-대-잠재 파인튜닝의 효율성
LATENT-TO-PIXEL 초기화로 인해 학습 시작 시점의 저랭크 픽셀 샘플이 latent 샘플과 도메인 구조를 상당 부분 공유하므로, 파인튜닝 시 저랭크-대-전체 픽셀 간의 차이를 빠르게 보정한다. 이로써 대용량 latent-flow를 픽셀 공간으로 확장하는 실용적 루트를 제공한다.
핵심 아이디어 이해하기
출발점: u = ϵ − x0인 표준 velocity-target은 고차원 픽셀 공간에서 노이즈를 직접 예측해야 하므로 네트워크에 부하를 준다. 제안: A ∈ R^{D×r}를 이용해 저랭크 서브스페이스 P = AA^T를 정의하고, uA := P ϵ − x0를 네트워크가 예측하도록 한다. 데이터 term은 전체 차원에서 처리되고 노이즈 항만 저랭크로 제한되므로 예측이 더 안정적이다. 복원: u = P uA + (I − P) xt + uA/σt로 전체 velocity를 정확히 복원한다. 엔드포인트: r = 0은 x0-prediction으로, r = D는 표준 u-prediction으로 수렴한다. Latent-to-pixel 초기화는 Trajectory coupling theorem으로, latent 흐름과 픽셀 흐름이 paired 상태에서 보존되므로 초기화가 정확하게 작동한다. 파인튜닝은 주로 저랭크 픽셀 출력과 full-rank 픽셀 타깃 간의 낮은 수준 차이를 보정하는 문제로 바뀐다.
관련 Figure

패치별 저랭크 서브스페이스 r이 증가함에 따라 x0-prediction에서 u-prediction까지의 연속적 전환이 어떻게 이루어지는지 보여준다.
AsymFlow 파라미터라이제이션 패밀리의 구조적 시각화
방법론
전체 접근: AsymFlow는 데이터(term)와 노이즈(ϵ) 구성 요소를 비대칭적으로 취급하는 흐름 벨로시티 타깃 uA를 제시한다. 형태: uA := P ϵ − x0, 네트워크는 uA를 예측하고 u를 u = P uA + (I − P)(xt) + uA/σt로 변환한다. Patch-wise projection: 각 패치에 대해 저랭크 서브스페이스 A를 고정하고 P = AA^T를 적용한다. 학습은 기존 flow matching 손실 LFM = E[‖u − ŷu‖^2]를 사용하되, 저랭크 타깃에 맞춘 uA를 예측하도록 한다.
관련 Figure

AsymFlow의 저랭크 구성과 orthogonal 컴포넌트의 역할을 시각화하며, 데이터_term과 노이즈_term의 분리 및 Velocity 복원 과정을 연결한다.
AsymFlow의 Orthogonal Component View 및 Full-Rank Velocity Recovery를 보여주는 도식

Variance reduction이 디테일 향상에 기여하나 노이즈를 증가시키는 부작용이 있어 LPIPS 보정으로 균형을 맞춘다는 점을 시각적으로 확인할 수 있다.
AsymFLUX.2 klein의 ablation: variance-reduction 및 LPIPS 보정 효과
주요 결과
주요 벤치마크 및 Ablation: ImageNet 256×256 픽셀 모델에서 AsymFlow(H/16, r=8)과 JiT-H/16을 비교했으며, σmin=0.04에서 AsymFlow는 1.76(FID), JiT는 1.90(FID)을 달성했다. r=0에서 JiT 대비 성능이 크게 개선되었고, PCA 기반 저랭크 서브스페이스의 경우 FID가 2.42.6대에서 최소값인 2.342.36 근처를 달성했다. REPA 손실을 적용하면 1.57 FID로 최첨단을 달성한다. 또한 6.2절의 대형 텍스트-투-이미지 파인튜닝에서 AsymFLUX.2 klein은 Latent baseline 대비 HPSv3/HPSv2.1, DPG, GenEval에서 개선을 보인다. 1024×1024 텍스트-투-이미지 시스템 비교에서도 AsymFLUX.2 klein은 Latent 및 Pixel 모델 간의 성능 지표에서 우위를 보였다. DDT 픽셀 파인튜닝 대비 AsymFlow의 이미지 품질 개선이 뚜렷하며, Variance Reduction과 LPIPS Perceptual Correction의 결합이 가장 자연스러운 질감을 유도한다.
관련 Figure

AsymFLUX.2 klein의 픽셀 공간 T2I 생성이 기존 PixelDiT-T2I보다 더 사실적이고 질감이 풍부하다는 것을 시각적으로 제시한다.
T2I 비교 결과의 정량 및 정성 비교 이미지(AsymFLUX.2 klein vs PixelDiT-T2I 등)
기술 상세
구조: A ∈ R^{D×r}이며 ATA = Ir, P = AA^T로 정의한다. u = ϵ − x0, uA = P ϵ − x0. 변환: u = P uA + (I − P)(xt) + uA/σt. 패치 단위로 저랭크 서브스페이스를 공유하며, Latent-to-Pixel 초기화 시 Procrustes 정렬을 통해 A를 추정하고 스케일 보정을 적용한다. Loss: LVR과 LPIPS를 결합한 최종 손실 L = LVR + ωP LPIPS로, 시간 스케일링, 기준점(xL0), 보정 계수 λ 등을 학습에 포함한다. Trajectory coupling: Theorem 1에 의해 zt와 xLt 간의 관계가 xLt = A zt + σt(I − P) ϵ로 유지되어 초기화 시 동일한 궤적을 갖는다.
한계점
잠재 공간이 픽셀 구조를 잘 보존하지 않는 RAE 모델과 같은 경우, 패치 수준 선형 리프가 잘 작동하지 않을 수 있다. Latent-to-pixel 초기화 시 스케일 보정이 완벽하지 않으면 미세구조 보정에 한계가 있을 수 있다.
실무 활용
AsymFlow는 latent flow를 픽셀 공간으로 확장하는 실용적인 경로를 제공한다. 파이프라인은 고해상도 픽셀 생성에 적합하고, latent-계열 모델의 세부 묘사를 보존하면서 저차원 노이즈 보정을 수행한다.
- 고해상도(예: 256×256 이상) 픽셀 공간 이미지 생성
- 텍스트-투-이미지(T2I) 시스템에서 픽셀 공간의 품질 제어 및 개선
- latent-to-pixel 파인튜닝으로 기존 latent flow 모델의 재배치
- 저랭크 노이즈 제어를 통한 샘플링 안정화 및 속도 개선
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.