구면 잠재 공간에서의 효율적 이미지 합성: Sphere Latent Encoder

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

Sphere Encoder는 재구성과 생성이 하나의 네트워크에서 이루어지며 픽셀 공간과 잠재 공간 사이를 반복적으로 오가므로 계산 비용이 증가한다. 본 연구는 고정된 representation autoencoder를 이미지 토크나이저로 활용하고 latent space에서만 denoising을 학습하는 분리형 파이프라인을 제시해 샘플링 속도와 연산 비용을 크게 줄이고 재구성/생성의 역할을 분리한다. Animal-Faces, Oxford-Flowers, ImageNet-1K에서 Sphere Encoder 대비 성능 향상을 보이며, 인퍼런스 비용을 약 85% 감소시키는 6.5× FLOPs 절감을 달성한다.

왜 중요한가

핵심 기여

Latent-only generation in spherical latent space

고정된 pretrained representation autoencoder를 이미지 토크나이저로 사용하고, latent space에서만 denoising 모델을 학습시켜 픽셀-잠재 간 반복 없이 샘플링을 수행하는 파이프라인을 제시한다.

Decoupled reconstruction and generation with fixed image tokenizer

RAE를 고정된 이미지 토크나이저로 활용하고, 재구성과 생성이 서로 다른 모듈로 분리되어 각각의 목표에 집중하도록 한다.

Efficient sampling with latent denoising and spherical projection

latent 공간에서의 denoising과 구면 투영(F)으로 구성된 샘플링 루프를 이용해 decoder를 한 번만 호출하고, CFG를 통한 가이던스로 샘플 품질을 조절한다.

Noise scheduling와 training 효율 개선

σ, σsub를 두 개의 독립적인 logit-normal 샘플로 뽑아 더 공격적인 노이즈 스케줄링을 적용하고, latent consistency loss를 제거하는 ablation을 통해 학습 효율과 성능을 개선한다.

실험적으로 Sphere Encoder 대비 우수한 품질과 더 낮은 비용

Animal-Faces, Oxford-Flowers, ImageNet-1K에서 2,4,6-step 샘플링 시 FID가 개선되고 GFLOPs가 크게 감소하며, 4×2에서의 비교에서도 FID와 비용 측면에서 우수한 성능을 보인다.

핵심 아이디어 이해하기

단계 1: 기존 Sphere Encoder는 reconstruction과 generation이 하나의 encoder–decoder 아키텍처에서 동작하며 픽셀 공간과 latent 공간 간 반복적인 트랜지션으로 계산 비용이 증가한다. 단계 2: 본 논문은 이미지 토크나이저로 작동하는 pretrained representation autoencoder를 고정하고, latent space에서만 denoising을 학습하는 독립적인 denoiser(G)로 구성한다. 단계 3: 샘플링은 전적으로 latent space에서 수행되며 최종적으로 decoder를 한 번만 호출해 픽셀로 맵핑한다. 이로써 reconstruction과 generation의 목표를 분리하고 샘플링 파이프라인을 단순화한다. 단계 4: 학습은 latent space에서 two levels의 노이즈(vNOISY, vnoisy)와 spherification(F)으로 구성되며, reconstruction 손실 Lrecon과 consistency 손실 Lcons(선택적)으로 구성된다. 단계 5: sampling은 Algorithm 1에 따라 latent를 점진적으로 정제하여 샘플을 얻고, gamma 일정에 따라 노이즈를 감소시키며 classifier-free guidance를 적용한다. 결과적으로 6-step 샘플링에서도 Sphere Encoder 대비 큰 이점(샘플 품질 및 연산 비용)을 달성한다.

방법론

단락 1: 전체 아키텍처. pretrained representation autoencoder(RAE)에서 인코더 E는 DINOv2 기반, 디코더 D는 ViT 기반으로 이미지 x를 latent z ∈ R16×16×768로 매핑하고, F는 z를 hypersphere에 투영한다. denoising 모델 G는 SiT 기반 트랜스포머로 작동하며, v = F(z + σϵ)로 노이즈가 주입된 latent를 입력으로 받는다. 단락 2: 핵심 메커니즘. G(v)은 clean latent z를 예측하고 D가 이를 이미지로 재구성한다. 재구성 손실 Lrecon은 ||G(vnoisy) − z||1과 cos(G(vnoisy), z)의 합이며, 일관성 손실 Lcons은 두 노이즈 수준에서의 예측 간 차이와 코사인 유사도 손실의 합이다. Ltotal은 λ1Lrecon + λ2Lcons + λ3Llat_cons으로 구성되나 latent consistency loss의 제거를 통해 학습 효율을 개선하는 ablation도 수행된다. 단락 3: 노이즈 샘플링. σ와 σsub는 두 개의 독립된 logit-normal 분포에서 샘플링되며, 더 큰 값을 σ로, 더 작은 값을 σsub으로 할당한다. 이로써 reconstruction과 generation 간의 coupling을 완화한다. 단락 4: 샘플링. Algorithm 1에 따라 zN(0,I)로 시작해 v=F(z)로 투영하고, zguided = G(v,∅) + ω(G(v,y)−G(v,∅))로 조건부 가이던스를 적용한다. v′=F(zguided)로 다시 투영하고 z = v′ + ε·σmax·r 형태의 노이즈를 추가해 다음 스텝으로 진행한다. 스텝 간 노이즈의 크기는 γ 스케줄로 감소하며, 46스텝에서 샘플링 품질이 크게 개선된다. 단락 5: 구현 및 하이퍼파라미터. Loss 가중치는 실험에 따라 λ1=50.0, λ2=25.0, λ3=1.0, σ 범위는 [0,85], σ mix은 [85,89], Mix 확률 0.2, Denoiser 아키텍처는 SiT-B/1 또는 SiT-XL/1, 이미지 인코더로 DINOv2-B를 사용하는 RAEs를 256×256 해상도에 맞춰 사용한다. gamma 값은 ImageNet-1K에서 0.5, Animal-Faces/Oxford-Flowers에서 0.75로 설정하며, CFG 가이던스 계수는 데이터셋별로 다르게 적용된다.

주요 결과

[메인 벤치마크] 5.1 Few-step Image Generation에서 Animal-Faces, Oxford-Flowers에서 2/4/6 steps 기준으로 FID(gFID)와 GFLOPs를 비교했다. Ours의 FID은 Animal-Faces에서 2/4/6 steps가 각각 10.63, 6.89, 6.18로 Sphere Encoder의 19.29, 18.23, 17.97보다 우수하다. Oxford-Flowers에서 2/4/6 steps는 12.22, 8.61, 7.85로 Sphere Encoder의 16.60, 12.96, 12.26보다 높은 품질이다. GFLOPs 측면에서도 Ours는 2/4/6 steps에서 302/390/478 GFLOPs로 Sphere Encoder의 1965/4554/7144에 비해 훨씬 적다. [이미지넷-1K] 4×2 NFE에서 Sphere Encoder의 FID 4.02를 Ours가 2.25로 대폭 개선했고, 6×2에서는 2.11로 더 개선된다. 이는 같은 샘플링 예산에서 OURS가 품질과 효율 모두 우수함을 보여준다. [ablation] Table 3의 노이즈 분포 실험에서 LogNorm(+0.4, 1.0) 조합이 ImageNet-100에서 5.31(FID 기준)으로 최적의 성능을 보였고, R+C+L 설정이 4.82로, R+C 설정의 4.68보다 더 높은 성능 향상을 보인다. Latent Projection w/o spherify는 89.68로 실패하지만, spherify를 적용하면 4.68로 회복한다. Inference Steps 실험에서 4 steps에서 4.90, 8 steps에서 4.13으로 성능이 개선되며 2 steps의 한계가 드러난다. Animal-Faces에서 Flux-VAE, GAE, RAE를 비교한 결과, RAE가 10.63으로 가장 우수하고, 고차원 잠재 공간(d=768)에서 semantically 풍부한 표현이 샘플링 품질에 기여한다. [추가 비교] CMMD 지표도 보고되며, 다중-스텝 시대의 다른 방법들과 비교해 competitive한 성능을 보이고 있다.

기술 상세

[아키텍처] 고정된 representation autoencoder(E, D)와 Latent denoising 모델 G(SiT)로 구성된다. x를 256×256에서 E로 인코딩해 z(16×16×768)로 매핑하고, F는 z를 hypersphere에 투영한다. 노이즈가 추가된 v = F(z+σϵ)에서 G가 z를 예측하며, D가 이를 재구성한다. [학습] Lrecon = ||G(vnoisy) − z||1 + Lcos(G(vnoisy), z) , Lcons = ||G(vNOISY) − sg(G(vnoisy))||1 + Lcos(G(vNOISY), sg(G(vnoisy))) , Llat_con은 선택적이지만 ablation에서 제거 시 학습 효율이 증가한다. Ltotal = λ1Lrecon + λ2Lcons + λ3Llat_con. [노이즈 스케줄링] σ, σsub는 두 독립적 로그노멀 샘플링으로 선택되며, σ ≥ σsub 관계를 유지한다. [샘플링] Algorithm 1에 따라 z∼N(0, I)로 시작해 v=F(z)로 투영하고, zguided = G(v, ∅) + ω(G(v,y)−G(v,∅))로 CFG를 적용한다. v′=F(zguided)로 재투영하고 z = v′ + ε·σmax·r로 다음 스텝으로 진행한다. γ 스케줄에 따라 노이즈를 점진적으로 감소시키며 4~6 스텝에서 성능이 크게 향상된다. [데이터/하이퍼파라미터] 이미지 해상도는 256×256, E/D는 256×256 입력에 대해 16×16×768 latent를 생성한다. Animal-Faces/Oxford-Flowers에서 γ=0.75, ImageNet-1K에서 γ=0.5를 사용하며 σmax=24, CFG 계수는 0(Animal-Faces), 4/8(Oxford-Flowers), 3.2(ImageNet-1K)로 설정된다.

한계점

RAE 의존성으로 인해 고성능의 one-step 샘플링 구현이 어려울 수 있으며, 사전학습된 encoder의 품질에 따라 성능이 좌우된다. 또한 본 연구는 class-conditional 이미지 생성에 집중하며 text-to-image 같은 harder 설정에 대한 평가가 수행되지 않았다.

실무 활용

RAE를 고정된 이미지 토크나이저로 사용하고 latent 공간에서만 denoising을 학습하는 구조로, 샘플링을 latent space에서만 수행해 계산 비용을 크게 줄인다.

저비용 대용량 이미지 합성 파이프라인 구축
리소스가 제한된 환경에서의 실시간 샘플링 애플리케이션
사전학습된 토크나이저가 있는 멀티도메인 이미지 생성
샘플링 스텝 수를 제한한 빠른 프로토타이핑

코드 공개 여부: 미확인

키워드

sphere encoderlatent denoising modelspherical latent spacepixel spacelatent spaceimage encodergeneration qualityinference speed