구글 딥마인드, 고해상도 합성을 위한 혁신적인 '통합 잠재 공간(Unified Latents)' 프레임워크 공개

핵심 요약

기존 잠재 확산 모델(LDM)은 정보 밀도와 재구성 품질 사이의 트레이드오프 문제로 인해 고해상도 합성 시 계산 비용이 높다. 구글 딥마인드는 이를 해결하기 위해 인코더, 확산 사전 확률(Prior), 확산 디코더를 공동으로 최적화하는 '통합 잠재 공간(Unified Latents, UL)' 프레임워크를 제안했다. 이 방식은 고정된 가우시안 노이즈 인코딩과 사전 확률 정렬을 통해 잠재 비트레이트의 상한선을 제어하며 효율적인 학습을 가능하게 한다. 결과적으로 ImageNet-512에서 FID 1.4, Kinetics-600에서 FVD 1.3을 기록하며 적은 계산량으로도 최첨단 성능을 입증했다.

배경

Latent Diffusion Models (LDM), Variational Autoencoders (VAE), Evidence Lower Bound (ELBO), Signal-to-Noise Ratio (SNR)

대상 독자

생성 AI 모델 아키텍처 연구자 및 고해상도 이미지/비디오 합성 효율화를 고민하는 ML 엔지니어

의미 / 영향

이 연구는 잠재 공간 자체를 확산 모델의 원리에 맞춰 재설계함으로써 생성 모델의 효율성을 한 단계 끌어올렸다. 특히 비디오 생성 분야에서 적은 자원으로 SOTA를 달성한 점은 향후 고비용 멀티모달 모델 학습의 새로운 표준이 될 가능성을 시사한다.

섹션별 상세

UL 프레임워크는 고정 가우시안 노이즈 인코딩, 사전 확률 정렬, 재가중치 적용 디코더 ELBO라는 세 가지 핵심 기술 기둥으로 구성된다. 표준 VAE와 달리 결정론적 인코더를 사용하여 단일 잠재 변수를 예측하고, 이를 특정 신호 대 잡음비(log-SNR) 수준으로 노이즈화하여 사전 확산 모델과 정렬한다. 이러한 구조는 증거 하한(ELBO) 내의 KL 발산 항을 가중치 적용 MSE 손실로 단순화하여 학습 효율성을 높인다.

학습 과정은 잠재 표현 학습과 생성 품질 최적화를 위해 두 단계로 나뉘어 진행된다. 1단계에서는 인코더, 확산 사전 확률, 확산 디코더를 공동으로 학습시켜 잠재 변수가 동시에 인코딩, 정규화, 모델링되도록 유도한다. 이 과정에서 인코더의 출력 노이즈는 사전 확률의 최소 노이즈 수준과 직접 연결되어 잠재 비트레이트에 대한 엄격한 상한선을 제공한다.

2단계에서는 학습된 인코더와 디코더를 고정한 상태에서 더 큰 규모의 '베이스 모델'을 잠재 공간 위에서 학습시켜 샘플링 품질을 극대화한다. 1단계에서 ELBO 손실로만 학습된 사전 확률은 저주파와 고주파 콘텐츠를 동일하게 가중하여 최적의 샘플을 생성하지 못하는 한계가 있다. 2단계에서는 시그모이드 가중치를 적용하여 성능을 크게 개선했으며, 더 큰 모델 크기와 배치 사이즈 적용이 가능해졌다.

성능 평가 결과, UL 프레임워크는 기존의 Stable Diffusion 잠재 공간 기반 모델들보다 적은 계산 비용(FLOPs)으로 더 높은 생성 품질을 달성했다. ImageNet-512 데이터셋에서 FID 1.4를 기록하며 DiT 및 EDM2 변형 모델들을 능가했으며, 비디오 생성 작업인 Kinetics-600에서는 FVD 1.3이라는 새로운 세계 최고 성능(SOTA)을 수립했다. 이는 높은 압축률에서도 재구성 충실도를 유지할 수 있음을 보여준다.

실무 Takeaway

확산 모델을 활용해 잠재 공간의 정규화와 디코딩을 통합함으로써 기존 LDM의 정보 밀도 트레이드오프 문제를 효과적으로 해결했다.
결정론적 인코더와 고정 노이즈 수준(log-SNR λ(0)=5)을 결합하여 잠재 비트레이트에 대한 해석 가능한 상한선을 제공한다.
2단계 학습 전략을 통해 오토인코더의 효율성과 대규모 생성 모델의 샘플 품질을 동시에 확보할 수 있음을 증명했다.

언급된 리소스

논문Unified Latents Paper (arXiv:2602.17270)

핵심 요약

배경

Latent Diffusion Models (LDM), Variational Autoencoders (VAE), Evidence Lower Bound (ELBO), Signal-to-Noise Ratio (SNR)

대상 독자

생성 AI 모델 아키텍처 연구자 및 고해상도 이미지/비디오 합성 효율화를 고민하는 ML 엔지니어

의미 / 영향

섹션별 상세

실무 Takeaway

확산 모델을 활용해 잠재 공간의 정규화와 디코딩을 통합함으로써 기존 LDM의 정보 밀도 트레이드오프 문제를 효과적으로 해결했다.
결정론적 인코더와 고정 노이즈 수준(log-SNR λ(0)=5)을 결합하여 잠재 비트레이트에 대한 해석 가능한 상한선을 제공한다.
2단계 학습 전략을 통해 오토인코더의 효율성과 대규모 생성 모델의 샘플 품질을 동시에 확보할 수 있음을 증명했다.

언급된 리소스

논문Unified Latents Paper (arXiv:2602.17270)

구글 딥마인드, 고해상도 합성을 위한 혁신적인 '통합 잠재 공간(Unified Latents)' 프레임워크 공개

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

구글 딥마인드, 고해상도 합성을 위한 혁신적인 '통합 잠재 공간(Unified Latents)' 프레임워크 공개

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글