핵심 요약
VAE의 복원 성능이 뛰어나더라도 확산 모델의 생성 품질이 반드시 비례하지 않는 문제를 해결한다. 잠재 공간의 주파수 분포를 자연 이미지의 특성에 맞게 최적화하는 이론적 근거를 제시하여, 확산 모델이 더 쉽고 정확하게 학습할 수 있는 환경을 구축한다.
왜 중요한가
VAE의 복원 성능이 뛰어나더라도 확산 모델의 생성 품질이 반드시 비례하지 않는 문제를 해결한다. 잠재 공간의 주파수 분포를 자연 이미지의 특성에 맞게 최적화하는 이론적 근거를 제시하여, 확산 모델이 더 쉽고 정확하게 학습할 수 있는 환경을 구축한다.
핵심 기여
픽셀 공간 확산의 저주파 편향성 이론적 증명
MSE 손실 함수로 학습되는 픽셀 공간 확산 모델이 본질적으로 저주파 및 중주파 성분을 학습하는 데 편향되어 있으며, 자연 이미지의 멱법칙 PSD가 이러한 편향을 지각적으로 유익하게 만든다는 점을 수학적으로 확인했다.
스펙트럼 매칭 가설 제안
우수한 확산 가능성을 가진 잠재 공간은 평탄화된 멱법칙 PSD를 따라야 하며(ESM), 디코더를 통해 주파수 간 시맨틱 대응 관계를 유지해야 한다(DSM)는 통합 가설을 수립했다.
ESM 및 DSM 알고리즘 구현
이미지와 잠재 변수 간의 PSD 매칭을 통한 ESM과, 공유 스펙트럼 마스킹 및 주파수 정렬 복원을 통한 DSM을 구현하여 잠재 공간의 학습 효율을 극대화했다.
REPA를 위한 DoG 기반 대역 통과 필터링 도입
표현 정렬(REPA)에서 방향성 스펙트럼 에너지가 핵심임을 밝히고, 가우시안 차이(DoG) 필터를 사용하여 타겟 표현의 공간적 대비를 높임으로써 생성 성능을 개선했다.
핵심 아이디어 이해하기
확산 모델은 노이즈를 제거하며 이미지를 생성하는데, 이때 주로 쓰이는 MSE 손실 함수는 주파수 영역에서 에너지가 큰 저주파 성분을 우선적으로 학습하게 만드는 저주파 편향(low-frequency bias)을 유도한다. 자연 이미지는 저주파에 에너지가 쏠려 있는 멱법칙 분포를 가지므로, 확산 모델은 자연스럽게 이미지의 전체적인 구조부터 학습하게 된다.
문제는 VAE를 통해 압축된 잠재 공간이다. 표준 VAE는 압축 과정에서 엔트로피를 최대화하려다 보니 잠재 공간의 스펙트럼이 너무 하얗게 변하거나, 반대로 너무 매끄러워져 확산 모델이 학습하기 어려운 구조가 된다. 이 논문은 잠재 공간의 스펙트럼을 자연 이미지와 유사하면서도 약간 더 평탄한 형태로 강제하여, 확산 모델이 고주파 정보까지 효율적으로 학습할 수 있는 확산 가능성을 확보한다.
이를 위해 인코더 단계에서는 잠재 변수의 PSD를 목표 스펙트럼에 맞추고(ESM), 디코더 단계에서는 특정 주파수 대역만 남긴 이미지와 잠재 변수를 정렬하여 복원하게 한다(DSM). 결과적으로 확산 모델은 잠재 공간에서도 픽셀 공간에서와 같은 효율적인 계층적 학습을 수행할 수 있게 되어 최종적인 생성 품질이 향상된다.
방법론
ESM(Encoding Spectrum Matching)은 인코더가 생성하는 잠재 변수의 스펙트럼 형상을 제어한다. 입력 이미지와 잠재 변수 각각의 PSD를 계산한 후, 이미지 PSD를 평탄화 계수를 이용해 변형한 타겟 스펙트럼을 생성한다. [이미지와 잠재 변수의 PSD를 입력으로] → [두 분포 사이의 KL Divergence를 계산하여] → [손실 함수를 도출하고] → [잠재 공간이 목표로 하는 멱법칙 분포를 따르도록 강제한다].
DSM(Decoding Spectrum Matching)은 디코더가 주파수 대역별 시맨틱을 보존하도록 보장한다. 2D-DCT 영역에서 삼각형 형태의 저역 통과 마스크를 샘플링하여 이미지와 잠재 변수에 동일하게 적용한다. [마스킹된 잠재 변수를 디코더에 입력으로] → [마스킹된 원본 이미지와의 L1 복원 오차를 계산하여] → [손실 함수를 얻고] → [디코더가 특정 주파수 성분을 정확한 이미지 주파수 대역으로 복원하게 한다].
REPA 개선을 위해 DoG(Difference-of-Gaussians) 필터를 도입한다. 기존의 평균 제거 방식보다 넓은 대역의 저주파를 억제하고 고주파를 감쇄시키는 대역 통과 처리를 수행한다. [타겟 표현을 입력으로] → [서로 다른 표준편차를 가진 두 가우시안 커널의 차이를 연산해] → [필터링된 결과를 생성하고] → [표현의 공간적 대비를 높여 확산 모델의 정렬 신호를 강화한다].
주요 결과
CelebA 256x256 데이터셋 실험 결과, DSM-AE가 가장 우수한 생성 품질을 기록했다. f8d4 설정에서 표준 SD-VAE의 gFID는 6.63인 반면, DSM-AE는 4.44로 크게 개선되었다. 복원 품질은 기존 모델들과 유사한 수준을 유지하면서도 확산 모델의 학습 효율과 최종 생성 성능만 선택적으로 높였음이 확인됐다.
ImageNet 256x256 벤치마크에서도 DSM-AE는 REPA 적용 여부와 관계없이 SD-VAE를 일관되게 능가했다. REPA를 사용하지 않았을 때 400k 스텝 기준 gFID 12.20을 기록하여 SD-VAE(14.58)보다 우수했으며, REPA를 적용했을 때도 6.48로 SD-VAE(7.60) 대비 높은 성능을 보였다.
REPA-DoG 실험에서는 DINOv2-B를 인코더로 사용했을 때, 기존 iREPA의 최저 gFID인 5.07보다 낮은 4.98을 달성했다. 시각화 분석을 통해 DoG 필터가 타겟 표현의 공간적 대비를 명확하게 만들어 확산 모델에 더 강한 정렬 신호를 제공함을 입증했다.
실무 활용
기존 VAE 아키텍처를 변경하지 않고도 손실 함수에 스펙트럼 매칭 항을 추가하는 것만으로 확산 모델의 생성 성능을 높일 수 있다. 고해상도 이미지 및 비디오 생성 모델의 첫 번째 단계인 VAE 학습 시 즉각적으로 활용 가능한 효율적인 정규화 기법이다.
- 고품질 이미지 생성을 위한 맞춤형 VAE 학습 및 미세 조정
- 제한된 연산 자원 환경에서 확산 모델의 학습 수렴 속도 가속화
- DINOv2 등 파운데이션 모델의 특징을 확산 모델 학습에 정렬시키는 REPA 성능 최적화
기술 상세
본 연구는 픽셀 공간 확산의 학습 능력이 주파수 영역의 SNR에 비례한다는 점을 수학적으로 도출했다. 학습 가능한 신호 전력이 PSD와 SNR의 함수로 표현됨을 보임으로써, 자연 이미지의 멱법칙 PSD가 확산 모델의 저주파 편향 학습을 정당화함을 이론적으로 뒷받침했다.
ESM은 정보 이론적 관점에서 엔트로피 최대화가 잠재 스펙트럼을 평탄화하려는 경향이 있음을 지적한다. 표준 VAE는 이 과정에서 고주파 노이즈가 과도해질 수 있는데, ESM은 이를 억제하기 위해 잠재 변수의 PSD를 입력 이미지의 PSD를 특정 계수만큼 평탄화한 타겟에 맞추는 정규화 기법을 사용한다.
DSM은 주파수 정렬 복원을 통해 잠재 공간의 각 주파수 대역이 디코딩 후에도 동일한 이미지 주파수 대역에 대응되도록 강제한다. 이는 기존의 Scale Equivariance나 EQ-VAE가 수행하던 공간적 다운샘플링을 주파수 영역에서의 마스킹이라는 더 일반화된 형태로 확장한 것으로 해석된다.
REPA의 핵심 지표인 RMSC가 방향성 스펙트럼 에너지와 수학적으로 동일함을 증명했다. 이를 바탕으로 제안된 DoG 필터는 단순한 평균 제거를 넘어 특정 주파수 대역을 강조함으로써 확산 모델이 타겟 표현의 구조적 정보를 더 잘 파악하도록 돕는다.
한계점
비디오 오토인코더에서의 스펙트럼 매칭은 조사하지 않았다. 비디오의 경우 시간적 주파수 구조와 시공간적 결합이 새로운 제약 조건을 제공할 수 있으나, 본 연구는 이미지 VAE에 집중했다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료