Stanford OnlineAI/ML

스탠포드 CME 296 강의 4: 확산 모델 및 거대 비전 모델 - 잠재 확산 모델과 멀티모달 가이던스

이미지 픽셀 공간의 한계를 극복하기 위한 잠재 확산 모델(LDM)의 아키텍처와 VAE, CLIP을 활용한 멀티모달 가이던스 생성 기법을 심도 있게 다룹니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

고차원 픽셀 데이터의 중복성을 제거하기 위해 VAE로 압축된 잠재 공간에서 확산 모델을 실행하는 것이 효율적이며, CLIP 임베딩을 통해 텍스트와 이미지 간의 의미적 연결을 가이던스로 활용할 수 있다.

배경

스탠포드 대학교의 CME 296 과정 중 네 번째 강의로, 이미지 생성의 효율성을 높이는 잠재 공간 활용법을 다룹니다.

대상 독자

확산 모델의 수학적 원리와 비전 모델 아키텍처를 깊이 있게 이해하려는 AI 연구자 및 엔지니어

의미 / 영향

이 강의는 현대 생성 AI의 표준인 Latent Diffusion 아키텍처의 이론적 배경을 완벽히 정리해준다. 연구자들은 픽셀 공간의 한계를 극복하는 압축 기법과 멀티모달 정렬 원리를 이해함으로써 더 효율적인 이미지 생성 파이프라인을 설계할 수 있다. 특히 CFG와 같은 가이던스 기법의 이해는 모델의 프롬프트 제어 능력을 최적화하는 데 실무적인 도움을 준다.

챕터별 상세

07:05

픽셀 공간의 한계와 잠재 공간의 필요성

이미지를 픽셀 단위로 직접 다루는 방식은 차원의 저주와 데이터 중복성 문제를 야기한다. 1024x1024 해상도의 이미지는 약 300만 차원의 벡터로 표현되어 연산 비용이 기하급수적으로 증가하며, 인접 픽셀 간의 높은 상관관계로 인해 정보 밀도가 낮다. 따라서 데이터를 의미 있는 저차원 벡터로 압축하는 잠재 공간(Latent Space)으로의 전환이 필수적이다. 이를 통해 확산 모델은 복잡한 세부 사항 대신 핵심적인 구조적 특징 학습에 집중할 수 있다.

14:27

오토인코더(Autoencoder)와 VAE의 구조

오토인코더는 인코더를 통해 데이터를 압축하고 디코더로 재구성하는 과정을 통해 잠재 표현을 학습한다. 일반적인 오토인코더는 잠재 공간이 불연속적이고 구조화되지 않아 생성 모델로 사용하기 어렵다는 단점이 있다. 이를 해결하기 위해 Variational Autoencoder(VAE)는 데이터를 특정 점이 아닌 확률 분포(평균과 분산)로 매핑한다. 결과적으로 잠재 공간이 연속적으로 변하여 샘플링을 통한 데이터 생성이 가능해지며, 이는 Latent Diffusion 모델의 기반이 된다.

VAE는 인코딩된 잠재 공간이 표준 정규 분포를 따르도록 강제하는 KL 발산 항을 손실 함수에 포함한다.

46:43

VAE의 블러 현상 해결을 위한 손실 함수 개선

기존 VAE는 픽셀 단위의 L2 손실 함수를 사용하기 때문에 생성된 이미지가 흐릿해지는(Blurry) 경향이 있다. 이를 극복하기 위해 Perceptual Loss와 Adversarial Loss를 도입하여 시각적 품질을 개선했다. Perceptual Loss는 사전 학습된 네트워크의 피처 맵을 비교하여 인간의 시각적 인지와 유사한 특징을 보존하게 한다. 또한 GAN의 판별기(Discriminator)를 활용한 Adversarial Loss를 추가하여 모델이 더 선명하고 실제와 같은 텍스트를 생성하도록 유도한다.

LPIPS(Learned Perceptual Image Patch Similarity)는 이미지 패치 간의 지각적 유사성을 측정하는 대표적인 지표다.

57:01

잠재 확산 모델(Latent Diffusion Models)의 작동 원리

Latent Diffusion 모델은 VAE의 인코더로 압축된 잠재 공간 상에서 확산 프로세스를 수행한다. 학습 시에는 인코더를 통해 얻은 잠재 벡터에 노이즈를 추가하고, U-Net 아키텍처를 통해 이 노이즈를 예측하도록 학습한다. 추론 시에는 순수 노이즈에서 시작하여 잠재 공간에서 역확산 과정을 거친 후, 최종적으로 VAE의 디코더를 통해 픽셀 공간으로 복원한다. 이 방식은 픽셀 공간 대비 연산량을 획기적으로 줄이면서도 고해상도 이미지 생성을 가능하게 한다.

01:05:55

CLIP을 활용한 멀티모달 텍스트 및 이미지 표현

텍스트와 이미지를 동일한 벡터 공간에서 비교하기 위해 CLIP(Contrastive Language-Image Pre-training) 아키텍처를 활용한다. 텍스트는 Transformer 인코더를, 이미지는 ViT(Vision Transformer) 인코더를 사용하여 각각 임베딩 벡터를 추출한다. 대규모 데이터셋에서 이미지와 해당 캡션의 코사인 유사도를 최대화하는 대조 학습(Contrastive Learning)을 통해 두 모달리티 간의 의미적 연결을 학습한다. 이렇게 학습된 공통 공간의 벡터는 확산 모델이 텍스트 조건에 맞는 이미지를 생성하도록 가이드하는 핵심 정보가 된다.

ViT는 이미지를 패치 단위로 나누어 Transformer 구조에 입력하는 방식이다.

01:27:44

조건부 생성을 위한 가이던스(Guidance) 기법

생성 결과가 입력 조건(텍스트 등)에 더 잘 부합하도록 Classifier-based 및 Classifier-free Guidance 기법을 사용한다. Classifier-based 방식은 별도의 분류기 그래디언트를 사용하여 노이즈 제거 방향을 조정하지만, 노이즈 섞인 데이터에 대한 분류기 학습이 어렵다는 단점이 있다. 이를 보완한 Classifier-free Guidance(CFG)는 학습 시 조건부와 무조건부 예측을 동시에 수행하고 두 예측값의 차이를 가중치(w)만큼 증폭시킨다. 실험 결과 w가 1보다 클 때 텍스트 충실도가 높아지며, 현재 대부분의 상용 모델에서 CFG가 표준으로 채택되고 있다.

CFG 가중치가 너무 높으면 이미지의 다양성이 줄어들고 채도가 과해지는 현상이 발생할 수 있다.

text

L_VAE = -E_z[log p_theta(x|z)] + KL(q_phi(z|x) || p(z))

VAE의 손실 함수인 ELBO를 재구성 오차와 KL 발산 항으로 표현한 수식

실무 Takeaway

고해상도 이미지 생성 시 픽셀 공간 대신 VAE로 압축된 잠재 공간(Latent Space)을 사용하면 연산 효율성을 10배 이상 높일 수 있다.
VAE의 재구성 손실에 Perceptual Loss와 Adversarial Loss를 결합하면 생성 이미지의 블러 현상을 억제하고 세부 질감을 살릴 수 있다.
Classifier-free Guidance 기법을 적용하여 조건부/무조건부 예측의 차이를 증폭시킴으로써 텍스트 프롬프트에 대한 모델의 순응도를 정밀하게 조절할 수 있다.
CLIP 대조 학습을 통해 구축된 공유 임베딩 공간은 텍스트와 이미지라는 서로 다른 모달리티를 수학적으로 직접 비교 가능하게 만든다.

언급된 리소스

문서CME 296 Course Syllabus

논문High-Resolution Image Synthesis with Latent Diffusion Models (LDM Paper)

논문Learning Transferable Visual Models From Natural Language Supervision (CLIP Paper)

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 04. 29.수집 2026. 04. 29.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.