핵심 요약
이미지 생성 모델은 국소적 세부 사항과 전역적 구조를 모두 파악해야 하며 이를 위해 U-Net에서 확장성이 뛰어난 DiT 구조로 발전했다. 특히 adaLN과 RoPE 같은 최적화 기법이 최신 모델의 성능 향상에 결정적인 역할을 한다.
배경
스탠포드 대학교의 CME 296 과정 중 다섯 번째 강의로 이미지 생성 모델의 핵심 아키텍처를 다룹니다.
대상 독자
확산 모델의 내부 구현 방식과 최신 아키텍처 트렌드를 깊이 있게 이해하고자 하는 AI 연구자 및 개발자
의미 / 영향
이 강의는 확산 모델의 백본이 U-Net에서 DiT로 전환되는 기술적 필연성을 명확히 제시한다. 개발자들은 고해상도 이미지 생성을 위해 단순한 모델 크기 증대보다 패치 크기 최적화와 adaLN 같은 정교한 조건 주입 방식에 집중해야 한다. 이러한 아키텍처의 발전은 향후 Sora와 같은 고성능 비디오 생성 모델의 기반 기술로 직결될 것이다.
챕터별 상세
이미지 생성 모델의 목표와 요구사항
합성곱 기반 아키텍처와 수용 영역(Receptive Field)
수용 영역은 출력 층의 한 픽셀이 입력 이미지의 어느 정도 범위를 참조하는지를 나타내는 지표이다.
U-Net 아키텍처의 구조와 확산 모델 적용
스킵 연결은 정보 손실을 방지하기 위해 하위 계층의 특징 맵을 상위 계층에 직접 이어붙이는 기법이다.
Diffusion Transformer (DiT)의 등장
DiT는 2022년 Peebles와 Xie에 의해 제안된 모델로 최신 고성능 생성 AI의 표준이 되었다.
적응형 레이어 정규화 (adaLN)를 통한 조건 주입
레이어 정규화는 각 샘플 내에서 특징값들을 정규화하여 학습 속도를 높이고 안정화하는 기법이다.
위치 정보 보존을 위한 RoPE와 2D 확장
RoPE는 원래 NLP에서 개발되었으나 최근 비전 모델에서도 그 효율성을 인정받아 널리 채택되고 있다.
실무 Takeaway
- 이미지 생성 모델에서 전역적 구조와 국소적 세부 사항을 동시에 잡기 위해 U-Net의 스킵 연결이나 Transformer의 Self-Attention 구조가 필수적이다.
- 모델의 확장성(Scalability) 측면에서 Transformer 기반의 DiT가 합성곱 기반의 U-Net보다 유리하며 패치 크기를 줄이는 것이 성능 향상의 핵심이다.
- adaLN-Zero 기법을 활용하면 타임스텝과 텍스트 조건을 Transformer 블록에 효율적으로 주입하여 생성 품질을 높일 수 있다.
- 2D RoPE와 같은 진보된 위치 임베딩 기술을 적용함으로써 이미지 내 객체 간의 공간적 관계를 더 정밀하게 모델링할 수 있다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.