Stanford OnlineAI/ML조회 2회

스탠포드 CME 296 강좌 5: 확산 모델 및 대규모 비전 모델 아키텍처

확산 모델의 백본 아키텍처가 U-Net에서 Transformer(DiT)로 진화하는 과정과 그 내부 작동 원리 및 최적화 기법을 심도 있게 다룹니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

이미지 생성 모델은 국소적 세부 사항과 전역적 구조를 모두 파악해야 하며 이를 위해 U-Net에서 확장성이 뛰어난 DiT 구조로 발전했다. 특히 adaLN과 RoPE 같은 최적화 기법이 최신 모델의 성능 향상에 결정적인 역할을 한다.

배경

스탠포드 대학교의 CME 296 과정 중 다섯 번째 강의로 이미지 생성 모델의 핵심 아키텍처를 다룹니다.

대상 독자

확산 모델의 내부 구현 방식과 최신 아키텍처 트렌드를 깊이 있게 이해하고자 하는 AI 연구자 및 개발자

의미 / 영향

이 강의는 확산 모델의 백본이 U-Net에서 DiT로 전환되는 기술적 필연성을 명확히 제시한다. 개발자들은 고해상도 이미지 생성을 위해 단순한 모델 크기 증대보다 패치 크기 최적화와 adaLN 같은 정교한 조건 주입 방식에 집중해야 한다. 이러한 아키텍처의 발전은 향후 Sora와 같은 고성능 비디오 생성 모델의 기반 기술로 직결될 것이다.

챕터별 상세

05:26

이미지 생성 모델의 목표와 요구사항

이미지 생성 모델은 이미지의 전역적 구조를 이해함과 동시에 국소적인 세부 사항을 보존해야 하는 과제를 안고 있다. 또한 타임스텝(Timestep)이나 텍스트 조건과 같은 외부 신호에 민감하게 반응해야 하며 고해상도 이미지 생성을 위해 계산 효율성과 확장성을 갖춰야 한다. 이러한 요구사항을 충족하기 위해 모델 아키텍처는 단순한 합성곱 신경망에서 복잡한 계층 구조로 발전했다. 결국 좋은 아키텍처란 데이터의 특징을 가장 잘 반영하는 귀납적 편향(Inductive Bias)을 설계하는 것이다.

09:58

합성곱 기반 아키텍처와 수용 영역(Receptive Field)

합성곱(Convolution) 연산은 필터를 통해 이미지의 에지, 질감 등 국소적 특징을 추출하는 데 탁월하다. 하지만 단일 합성곱 층은 이미지의 좁은 영역만 볼 수 있으므로 전체적인 구도를 파악하기 위해서는 수용 영역(Receptive Field)을 넓히는 과정이 필수적이다. 이를 위해 모델은 다운샘플링(Downsampling)을 통해 해상도를 줄이면서 특징 맵의 깊이를 늘려 더 넓은 맥락을 파악한다. 이후 다시 업샘플링(Upsampling)을 거쳐 원래 이미지 크기로 복원하며 이 과정에서 전역적 정보와 국소적 정보가 결합된다.

수용 영역은 출력 층의 한 픽셀이 입력 이미지의 어느 정도 범위를 참조하는지를 나타내는 지표이다.

19:06

U-Net 아키텍처의 구조와 확산 모델 적용

U-Net은 인코더와 디코더가 대칭을 이루는 U자형 구조로 확산 모델의 초기 백본으로 널리 사용되었다. 인코더 단계에서 정보를 압축하며 전역적 구조를 파악하고 디코더 단계에서 이를 복원하는데 이때 스킵 연결(Skip Connection)을 사용하여 인코더의 세부 정보를 디코더에 직접 전달한다. 이 구조는 이미지의 해상도를 유지하면서도 노이즈를 제거하는 데 매우 효율적임이 DDPM 등의 연구를 통해 증명되었다. 하지만 고해상도 데이터로 갈수록 모델 크기를 키우는 데 한계가 있다는 단점이 존재한다.

스킵 연결은 정보 손실을 방지하기 위해 하위 계층의 특징 맵을 상위 계층에 직접 이어붙이는 기법이다.

35:43

Diffusion Transformer (DiT)의 등장

Transformer 아키텍처의 성공에 힘입어 확산 모델의 백본을 Transformer로 교체한 DiT가 제안되었다. DiT는 이미지를 패치(Patch) 단위로 쪼개어 토큰화한 뒤 Self-Attention 메커니즘을 통해 모든 패치 간의 관계를 계산한다. 이는 U-Net과 달리 이미지 내의 먼 거리 간 상호작용을 직접적으로 모델링할 수 있게 해주며 모델 파라미터와 데이터 규모에 따른 성능 향상이 매우 선형적이다. 실험 결과 패치 크기를 줄이고 모델 깊이를 늘릴수록 이미지 생성 품질을 나타내는 FID 지표가 획기적으로 개선됨이 확인되었다.

DiT는 2022년 Peebles와 Xie에 의해 제안된 모델로 최신 고성능 생성 AI의 표준이 되었다.

48:08

적응형 레이어 정규화 (adaLN)를 통한 조건 주입

DiT 블록 내에서 타임스텝과 클래스 레이블 정보를 효과적으로 주입하기 위해 adaLN 기법이 사용된다. 외부 조건 벡터를 MLP에 통과시켜 각 채널별 스케일(Scale)과 시프트(Shift) 파라미터를 생성하고 이를 레이어 정규화 과정에 적용한다. 특히 학습 초기에는 게이트(Gate) 값을 0으로 설정하여 항등 함수로 시작하게 함으로써 학습의 안정성을 높이는 adaLN-Zero 방식이 가장 우수한 성능을 보였다. 이 방식은 Cross-Attention 방식보다 계산 비용이 적으면서도 조건에 따른 이미지 생성을 정밀하게 제어할 수 있다.

레이어 정규화는 각 샘플 내에서 특징값들을 정규화하여 학습 속도를 높이고 안정화하는 기법이다.

1:25:25

위치 정보 보존을 위한 RoPE와 2D 확장

Transformer는 구조적으로 토큰의 순서를 알 수 없으므로 위치 임베딩(Position Embedding)이 필수적이다. 초기에는 절대적 위치 값을 더해주는 방식을 썼으나 최근에는 토큰 간의 상대적 거리를 회전 행렬로 표현하는 RoPE가 주류로 자리 잡았다. 이미지 데이터의 경우 X축과 Y축의 위치를 각각 독립적으로 처리하거나 결합하여 처리하는 2D RoPE 변형들이 사용된다. Stable Diffusion 3와 같은 최신 모델은 이러한 2D RoPE를 통해 이미지 내 패치들의 공간적 배치를 더 정확하게 이해하고 고품질의 결과물을 생성한다.

RoPE는 원래 NLP에서 개발되었으나 최근 비전 모델에서도 그 효율성을 인정받아 널리 채택되고 있다.

실무 Takeaway

이미지 생성 모델에서 전역적 구조와 국소적 세부 사항을 동시에 잡기 위해 U-Net의 스킵 연결이나 Transformer의 Self-Attention 구조가 필수적이다.
모델의 확장성(Scalability) 측면에서 Transformer 기반의 DiT가 합성곱 기반의 U-Net보다 유리하며 패치 크기를 줄이는 것이 성능 향상의 핵심이다.
adaLN-Zero 기법을 활용하면 타임스텝과 텍스트 조건을 Transformer 블록에 효율적으로 주입하여 생성 품질을 높일 수 있다.
2D RoPE와 같은 진보된 위치 임베딩 기술을 적용함으로써 이미지 내 객체 간의 공간적 관계를 더 정밀하게 모델링할 수 있다.

언급된 리소스

논문Scalable Diffusion Models with Transformers (DiT Paper)

논문U-Net: Convolutional Networks for Biomedical Image Segmentation

논문Stable Diffusion 3 Technical Report

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 05. 12.수집 2026. 05. 12.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.