핵심 요약
고차원 픽셀 데이터의 중복성을 제거하기 위해 VAE로 압축된 잠재 공간에서 확산 모델을 실행하는 것이 효율적이며, CLIP 임베딩을 통해 텍스트와 이미지 간의 의미적 연결을 가이던스로 활용할 수 있다.
배경
스탠포드 대학교의 CME 296 과정 중 네 번째 강의로, 이미지 생성의 효율성을 높이는 잠재 공간 활용법을 다룹니다.
대상 독자
확산 모델의 수학적 원리와 비전 모델 아키텍처를 깊이 있게 이해하려는 AI 연구자 및 엔지니어
의미 / 영향
이 강의는 현대 생성 AI의 표준인 Latent Diffusion 아키텍처의 이론적 배경을 완벽히 정리해준다. 연구자들은 픽셀 공간의 한계를 극복하는 압축 기법과 멀티모달 정렬 원리를 이해함으로써 더 효율적인 이미지 생성 파이프라인을 설계할 수 있다. 특히 CFG와 같은 가이던스 기법의 이해는 모델의 프롬프트 제어 능력을 최적화하는 데 실무적인 도움을 준다.
챕터별 상세
픽셀 공간의 한계와 잠재 공간의 필요성
오토인코더(Autoencoder)와 VAE의 구조
VAE는 인코딩된 잠재 공간이 표준 정규 분포를 따르도록 강제하는 KL 발산 항을 손실 함수에 포함한다.
VAE의 블러 현상 해결을 위한 손실 함수 개선
LPIPS(Learned Perceptual Image Patch Similarity)는 이미지 패치 간의 지각적 유사성을 측정하는 대표적인 지표다.
잠재 확산 모델(Latent Diffusion Models)의 작동 원리
CLIP을 활용한 멀티모달 텍스트 및 이미지 표현
ViT는 이미지를 패치 단위로 나누어 Transformer 구조에 입력하는 방식이다.
조건부 생성을 위한 가이던스(Guidance) 기법
CFG 가중치가 너무 높으면 이미지의 다양성이 줄어들고 채도가 과해지는 현상이 발생할 수 있다.
L_VAE = -E_z[log p_theta(x|z)] + KL(q_phi(z|x) || p(z))VAE의 손실 함수인 ELBO를 재구성 오차와 KL 발산 항으로 표현한 수식
실무 Takeaway
- 고해상도 이미지 생성 시 픽셀 공간 대신 VAE로 압축된 잠재 공간(Latent Space)을 사용하면 연산 효율성을 10배 이상 높일 수 있다.
- VAE의 재구성 손실에 Perceptual Loss와 Adversarial Loss를 결합하면 생성 이미지의 블러 현상을 억제하고 세부 질감을 살릴 수 있다.
- Classifier-free Guidance 기법을 적용하여 조건부/무조건부 예측의 차이를 증폭시킴으로써 텍스트 프롬프트에 대한 모델의 순응도를 정밀하게 조절할 수 있다.
- CLIP 대조 학습을 통해 구축된 공유 임베딩 공간은 텍스트와 이미지라는 서로 다른 모달리티를 수학적으로 직접 비교 가능하게 만든다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.