Stanford OnlineAI/ML

스탠포드 CME 296: 확산 모델 및 대규모 비전 모델 강의 1

스탠포드 대학교의 CME 296 첫 번째 강의로, 확산 모델의 기본 개념부터 DDPM의 수학적 유도 과정 및 DDIM을 통한 샘플링 가속화 기법을 심도 있게 다룹니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

확산 모델은 노이즈를 추가하는 순방향 과정과 이를 복원하는 역방향 과정을 학습하며, ELBO를 통해 계산 가능한 손실 함수를 도출한다. DDIM과 같은 기법을 통해 기존 확산 모델의 느린 샘플링 속도를 개선할 수 있다.

배경

이미지 생성 기술이 GAN에서 확산 모델로 패러다임이 전환됨에 따라 그 수학적 기초를 이해하는 것이 중요해졌다.

대상 독자

선형대수학, 확률론, 미분방정식의 기초 지식을 갖춘 AI/ML 연구자 및 학생

의미 / 영향

이 강의는 확산 모델의 블랙박스 같은 작동 원리를 수학적으로 투명하게 공개하여 연구자들이 모델을 개선할 수 있는 기반을 제공한다. 특히 DDIM과 같은 가속화 기법의 원리를 이해함으로써 실시간 이미지 생성 서비스 구축 시의 비용과 성능 트레이드오프를 최적화할 수 있는 통찰을 준다.

챕터별 상세

00:00

강의 소개 및 배경

강의자 Afshine Amidi와 Shervine Amidi가 본인들의 배경과 강의 목표를 소개한다. 2014년 초기 생성 모델의 저해상도 흑백 이미지와 현재의 고해상도 컬러 이미지를 비교하며 기술의 발전을 강조한다. 본 강의의 목적은 이미지 생성 모델이 어떻게 작동하고 왜 잘 작동하는지 수학적으로 이해하는 것이다.

12:23

강의 구성 및 선수 지식

총 8개의 강의로 구성된 커리큘럼을 설명한다. 1~3강은 확산 모델과 생성 패러다임, 4강은 조건부 생성, 5강은 모델 아키텍처(U-Net, Transformer), 6강은 학습 및 증류 기법, 7강은 평가 지표를 다룬다. 원활한 수강을 위해 선형대수, 확률론, 미분방정식, 머신러닝 기초 지식이 필수적임을 명시한다.

23:31

확산 모델의 직관적 이해

확산 모델은 깨끗한 이미지에 노이즈를 점진적으로 추가하여 완전한 노이즈 상태로 만드는 과정의 역을 학습한다. 노이즈는 샘플링이 쉽고 무작위성을 부여하며 수학적으로 다루기 쉬운 가우시안 분포를 주로 사용한다. 미켈란젤로의 조각 비유를 들어, 노이즈 덩어리에서 불필요한 부분을 깎아내어 이미지를 찾아가는 과정으로 설명한다.

26:33

이미지의 벡터 표현

이미지를 수학적으로 처리하기 위해 고차원 벡터로 표현하는 방식을 정의한다. 높이(H), 너비(W), 채널(C, RGB)을 가진 이미지는 H*W*C 차원의 벡터로 간주된다. 모든 확산 모델의 수식에서 x_0, x_t 등은 이러한 고차원 공간상의 점(벡터)을 의미한다.

46:29

순방향 과정(Forward Process)의 수학적 정의

데이터 x_0에 가우시안 노이즈를 단계적으로 추가하는 순방향 과정을 마르코프 체인으로 정의한다. 각 단계 t에서의 분포 q(x_t | x_{t-1})는 평균이 sqrt(1-beta_t)x_{t-1}이고 분산이 beta_t인 정규분포를 따른다. 이를 통해 임의의 시점 t에서의 이미지 x_t를 x_0로부터 직접 샘플링할 수 있는 수식을 유도한다.

beta_t는 각 단계에서 추가되는 노이즈의 양을 조절하는 노이즈 스케줄 파라미터이다.

55:58

역방향 과정(Reverse Process)과 학습 목표

모델의 목표는 순방향의 역인 p_theta(x_{t-1} | x_t)를 학습하는 것이다. 실제 역방향 분포는 계산이 불가능하므로 가우시안 분포로 근사하여 모델링한다. 모델은 주어진 x_t에서 추가된 노이즈 epsilon을 예측하도록 학습되며, 이는 수학적으로 로그 가능도의 하한인 ELBO를 최대화하는 것과 연결된다.

ELBO(Evidence Lower Bound)는 복잡한 확률 분포를 최적화 가능한 형태로 변환해주는 도구이다.

01:05:34

손실 함수 유도: KL 발산과 베이즈 정리

ELBO 수식을 정리하여 모델이 최소화해야 할 손실 함수를 도출한다. 베이즈 정리를 사용하여 조건부 확률을 재구성하고, 두 가우시안 분포 사이의 KL 발산을 계산한다. 최종적으로 손실 함수는 실제 추가된 노이즈와 모델이 예측한 노이즈 사이의 L2 거리(MSE)를 최소화하는 단순한 형태로 단순화된다.

가우시안 분포 간의 KL 발산은 평균과 분산의 차이를 이용해 해석적으로 계산 가능하다.

01:27:18

DDPM의 학습 및 추론 알고리즘

DDPM 논문에서 제안된 구체적인 알고리즘을 정리한다. 학습 시에는 데이터셋에서 x_0를 뽑고 임의의 t와 노이즈를 선택해 모델이 노이즈를 예측하게 한다. 추론(생성) 시에는 순수한 가우시안 노이즈 x_T에서 시작하여 모델이 예측한 노이즈를 조금씩 제거하며 x_0까지 역으로 거슬러 올라간다.

01:29:49

DDIM을 이용한 샘플링 가속화

DDPM은 수천 번의 반복 단계가 필요해 생성 속도가 매우 느리다는 단점이 있다. DDIM(Denoising Diffusion Implicit Models)은 순방향 과정을 비마르코프(non-Markovian) 과정으로 재정의하여 동일한 학습 모델로도 훨씬 적은 단계(예: 10~50단계)만으로 고품질 이미지를 생성할 수 있게 한다. 실험 결과 20배 이상의 속도 향상을 얻으면서도 이미지 품질 저하는 최소화됨을 확인했다.

DDIM은 역방향 과정을 결정론적(deterministic)으로 만들어 샘플링 단계를 건너뛸 수 있게 한다.

실무 Takeaway

확산 모델의 손실 함수는 복잡한 확률론적 유도 과정을 거치지만, 최종적으로는 모델이 예측한 노이즈와 실제 노이즈 간의 MSE를 최소화하는 단순한 회귀 문제로 귀결된다.
순방향 과정에서 가우시안 분포의 특성을 이용하면 중간 단계를 거치지 않고 x_0에서 x_t를 즉시 샘플링할 수 있어 학습 효율성이 극대화된다.
DDIM 기법을 적용하면 DDPM으로 학습된 동일한 가중치를 사용하면서도 샘플링 단계를 1000단계에서 50단계 이하로 줄여 생성 속도를 20배 이상 개선할 수 있다.

언급된 리소스

논문Denoising Diffusion Probabilistic Models (DDPM)

논문Denoising Diffusion Implicit Models (DDIM)

문서CME 296 Course Website

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 04. 11.수집 2026. 04. 11.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.