이미지 생성에서 구면 흐름 매칭의 잠재 기하 정렬

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

고차원에서 Gaussian 노이즈와 VAE latents는 얇은 구면(shell)에 집중한다. 이 잠재 공간에서 선형 경로는 두 엔드포인트를 지나 interior를 통과하며, 디코더는 토큰의 방향에 더 강하게 의존한다는 관찰에서 출발한다. 구면 위의 slerp 경로를 활용하고 잠재를 고정 반지름으로 프로젝션하면 경로가 항상 구면 위에 남아 방향성만 학습하도록 만들어 학습 효율과 생성 품질을 모두 개선한다. 이 접근은 Diffusion 아키텍처를 바꾸지 않고도 여러 토크나이저에서 일관된 FID 개선을 달성한다.

왜 중요한가

고차원에서 Gaussian 노이즈와 VAE latents는 얇은 구면(shell)에 집중한다. 이 잠재 공간에서 선형 경로는 두 엔드포인트를 지나 interior를 통과하며, 디코더는 토큰의 방향에 더 강하게 의존한다는 관찰에서 출발한다. 구면 위의 slerp 경로를 활용하고 잠재를 고정 반지름으로 프로젝션하면 경로가 항상 구면 위에 남아 방향성만 학습하도록 만들어 학습 효율과 생성 품질을 모두 개선한다. 이 접근은 Diffusion 아키텍처를 바꾸지 않고도 여러 토크나이저에서 일관된 FID 개선을 달성한다.

핵심 기여

Radial-shell mismatch의 정량화

Latent flow matching에서 radial motion이 현저하게 학습 초기에 지배적이며, 디코더의 반응은 방향성에 비해 반응이 약함을 수치적으로 확인한다.

토큰별 고정 반지름 구면 프로젝션

사전 학습된 VAE의 엔코더 출력에 토큰별 L2 프로젝션을 적용해 모든 토큰이 Sd-1(√d) 위에 위치하도록 하며, 디코더는 이 구면에 위치한 엔드포인트를 따라 학습하도록 한다.

slerp 기반의 구면 기하학적 트랜스포트

엔드포인트를 연결하는 경로를 구면 위의 geodesic인 slerp로 구현하고, 학습 타깃과 모델 출력 모두 접선 공간으로 투영해 구면 보존 샘플링을 보장한다.

일관된 성능향상 및 수렴 속도 증가

ImageNet-256에서 FLUX.2, VA-VAE, REPA-E FLUX.1 등 다양한 토크나이저에서 matched CFG 설정 하에 FID가 개선되며, 더 큰 백본에서도 이득이 유지되고 훈련 단계 수가 감소한다.

핵심 아이디어 이해하기

기존의 Latent flow matching은 Gaussian noise와 VAE latents를 직선 경로로 연결하는 Euclidean 가정을 사용한다. 이는 두 엔드포인트가 얇은 구(shell) 안쪽으로 들어가 있는 경우에도 중간 지점이 엔드포인트 궤도와 무관한 영역을 지나게 하는 단점이 있다. 2) Latent의 방향이 생성에 결정적이며, radius는 디코더에게 큰 영향을 주지 않는 구조적 특성이 있다. 3) 이를 해결하기 위해 Latent를 고정된 반지름의 구면 Sd-1(√d)로 프로젝션하고, 사영된 방향 벡터 간의 geodesic인 slerp를 따라 흐름을 학습한다. 4) 이 구면 경로는 항상 구면 위에 머물러 거리 변화가 방향성 학습에만 집중되도록 하며, matched budget에서 더 빠른 수렴과 높은 품질(FID) 향상을 가져온다.

관련 Figure

Diagram
이 그림은 구면 지오메트릭(path: slerp)으로의 변화가 왜 필요한지 직관적으로 제시한다. 구면 경로를 쓰면 엔드포인트가 같은 고정 반지름 상에 머물고, 방향성 학습에 집중해 변화가 더 효율적이라는 것을 시사한다.
Figure 1은 Linear vs Spherical Latent Flow의 차이를 도식으로 보여준다. linear 경로는 두 엔드포인트를 잇는 직선이 구면의 내부를 통과해 방향과 무관한 거리 변화를 학습하게 한다.

방법론

전체 접근 방식은 아래의 구성요소로 이루어진다. [전체 접근 방식] 사전 학습된 VAE latents를 구면에 투영하고, decoder만 미세조정하며, diffusion 아키텍처를 변경하지 않는다. [메커니즘] z0 ∼ Uniform(Sd−1(√d))와 z1 = E(x)로 정의되는 토큰별 지점에서, zt를 구면 위의 geodesic인 slerp로 보간한다. 학습 목표는 vθ(zt, t, y)의 투사된 속도와 ut의 접선 투속를 맞추는 것인데, slerp의 경우 ut는 접선 공간에서만 존재한다. [학습/구현] 토큰별 반지름 고정으로 radial motion을 제거하고, Tangent projection을 사용하여 모델 출력을 구면의 접선공간으로 투영한다. Euler 샘플링 대신 exponential-map 샘플링을 사용해 한 스텝에서 geodesic arc length를 정확히 따라간다. [비교] Linear 경로, Shell 경로 등과 비교해 구면 보간이 보편적으로 더 적은 radial 학습을 필요로 하고, decoders의 sensitivity가 방향에 집중됨을 확인한다.

관련 Figure

Diagram
본 그림은 Shell 경로가 radial motion을 제거하지 못한다는 한계를 보여주며, spherical projection의 필요성을 보강한다.
Figure 2는 Shell Path와 Slerp Path를 비교한다. Shell Path는 방향과 반지름을 분리해 보간하지만, 여전히 반지름이 학습 타깃으로 남는다.

Diagram
Slerp Path가 구면에서의 최단 경로를 보장하고, 학습 타깃의 방향성만을 남겨 학습 효율성을 높임을 시각적으로 보여준다.
Figure 5는 Shell-decomposed Path와 Slerp Path를 비교한다.

주요 결과

주요 벤치마크에서 spherical-slerp 구면 흐름은 vanilla-linear 대비 성능 향상을 보인다. 예를 들어 Table 2에서 FLUX.2의 FID는 26.35(Linear)에서 20.55(Slerp)으로 감소했고, VA-VAE와 REPA-E FLUX.1에서도 유사하게 개선된다. Table 3의 rFID 비교에서도 spherical 구면 프롭세션이 vanilla 대비 더 낮은 값으로 나타난다. 또한 Table 5의 다양한 토크나이저/스케일에서 Slerp가 Linear 대비 일관된 FID 개선을 보였고, 200 epochs 실험에서도 8.35(Linear) 대비 2.91(Slerp)로 감소했다. Fig.6의 학습 곡선은 spherical-slerp가 같은 예산에서 더 빠르게 FID를 낮춘다는 것을 시각적으로 보여준다.

관련 Figure

Chart
이 수치는 방향성 학습의 중요성을 강조하고, spherical path는 radial velocity를 0으로 만들기 때문에 더 효율적 학습이 가능함을 시각화한다.
Figure 4는 Radial Share of Flow-Matching Velocity를 보여준다. Linear 경로는 radial velocity 비중이 큼을 보여준다.

Diagram
관측치에서 방향 유지 시 원래 디코드와 거의 일치하고, 반지름 유지 시 나머지 특성이 바뀌지 않음을 보여준다. 이는 내용이 방향에 의해 좌우됨을 뚜렷이 확인시켜 준다.
Figure 7은 Angular/Vs Radius sensitivity를 population-mean substitute로 보여준다.

Chart
실험은 효과가 방향성에 집중되어 있음을 일관되게 뒷받침한다. 이는 구면 프로젝션의 필요성과 학습 목표의 재정의가 성능향상에 직접적 영향을 준다는 것을 시사한다.
Figure 8-9는 per-sample 방향-거리 민감도와 대체 실험의 산점도를 보여준다. 방향을 유지하고 반지름을 바꾸면 decode가 큰 변화를 보이고, 반대로 방향을 바꾸면 거의 변화가 없음을 보여준다.

기술 상세

구면(latent sphere) 제약은 Encoder와 Decoder 사이의 학습 파이프라인에만 부착된다. 1) π(z) = √d z / ∥z∥를 통해 각 토큰을 Sd−1(√d) 위에 매핑하고, z0는 Uniform(Sd−1(√d))에서 샘플링한다. 2) slerp 경로를 사용해 zt를 구하고, ut의 투영을 Πzt으로 수행하여 zt의 접선 공간에 머물도록 한다. 3) Lslerp 손실은 ∥Πzt vθ(zt, t, y) − Πzt ut∥^2로 계산되며, 역전 파이프라인은 expzt(Πzt vθ(zt, t, y) Δt)로 샘플링한다. 4) Exponential-map 샘플링은 t에 따라 geodesic 등속으로 움직이며, 1스텝에서 제약된 arc 길이를 유지한다. 5) Decoder finetune은 토크나이저별로 다르지만, encoder는 고정해 재학습 없이도 구면 구조를 유지한다. 6) Tokenizer별 Norm은 Tab.1에 정리된 실험 수치를 기반으로 구면으로의 수렴을 보장한다.

관련 Figure

Infographic
고차원에서의 링 컨센트레이션과 프로세싱 차이가 구면 프로젝션의 근거가 된다. 구면으로의 프로젝션은 러지/표준편차를 제시하며, 구면 흐름의 안정성을 보인다.
Table 1은 Gaussian Noise와 VAE latent의 per-token norm statistics를 정리한다.

실무 활용

구면(latent sphere) 제약을 도입한 latent flow matching은 VAE latents를 재학습 없이도 기존 토크나이저에 대해 더 나은 이미지 생성 품질을 달성한다. 이 기법은 diffusion 아키텍처를 바꾸지 않고, encoder를 추가하지 않으면서도 학습 효율과 생성 품질을 동시에 개선한다.

사전학습된 VAE를 사용하는 이미지 생성 파이프라인에서 latent geometry를 제약해 학습 속도와 FID를 개선
토큰화 방법이 달라 여러 VAE/tokenizer를 사용하는 환경에서 일관된 품질 향상을 얻고자 할 때
구면 보간(slerp) 기반의 지오메트릭 샘플링으로 샘플링 비용 감소 및 수렴 속도 향상이 필요한 프로덕션 diffusion 시스템

코드 공개 여부: 공개

키워드

latent flow matchingspherical latentVAE latentslerpgeodesicGaussian noiseImageNet-256tokenizer

이미지 생성에서 구면 흐름 매칭의 잠재 기하 정렬

TL;DR

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드