CodeEmporiumAI/ML조회 1회

DALL-E의 작동 원리: dVAE와 GPT를 활용한 텍스트-이미지 생성 기술 분석

OpenAI의 DALL-E 모델이 dVAE를 통해 이미지를 토큰화하고 GPT를 사용하여 텍스트와 이미지 토큰을 자기회귀적으로 생성하는 내부 아키텍처와 학습 과정을 상세히 다룹니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

DALL-E는 이미지를 이산적인 토큰으로 변환하는 dVAE와 이를 텍스트 토큰과 결합해 예측하는 GPT의 조합으로 작동합니다. 특히 미분 불가능한 샘플링 문제를 Gumbel-Softmax Relaxation으로 해결하여 전체 네트워크를 학습시킵니다.

배경

2017년 Transformer 등장 이후 NLP 분야에서 큰 성공을 거둔 Sequence-to-Sequence 모델링 기법을 이미지 생성 분야로 확장하려는 시도가 있었습니다.

대상 독자

딥러닝 모델의 내부 구조와 수학적 구현 원리에 관심 있는 AI 개발자 및 연구자

의미 / 영향

DALL-E의 아키텍처는 시각적 데이터를 언어처럼 처리할 수 있음을 보여주어 멀티모달 AI 연구의 초석이 되었다. 특히 dVAE를 통한 효율적인 이미지 토큰화 방식은 이후 대규모 생성 모델들의 데이터 처리 표준에 영향을 주었다. 개발자들은 이 원리를 응용해 특정 도메인의 데이터를 토큰화하고 Transformer 기반의 생성 시스템을 구축할 수 있다.

챕터별 상세

00:00

DALL-E의 정의와 역사적 배경

DALL-E는 텍스트 프롬프트를 입력받아 이미지를 생성하는 Foundation Model이다. 2017년 'Attention is all you need' 논문 이후 Transformer가 언어 번역에서 성과를 냈고, 이후 Vision Transformer(ViT)를 통해 이미지도 토큰 시퀀스로 처리할 수 있음이 증명되었다. OpenAI 연구진은 2021년에 텍스트-이미지 생성을 Sequence-to-Sequence 문제로 정형화하여 DALL-E를 개발했다.

03:35

DALL-E의 핵심 구성 요소: dVAE와 GPT

DALL-E는 크게 Discrete Variational Autoencoder(dVAE)와 Generative Pre-trained Transformer(GPT) 두 가지 컴포넌트로 구성된다. dVAE는 이미지를 32x32 크기의 이산적 토큰 그리드로 압축하고 복원하는 역할을 수행한다. GPT는 텍스트 토큰과 dVAE가 생성한 이미지 토큰을 연결하여 다음 토큰을 확률적으로 예측하도록 학습된다.

04:39

1단계 학습: dVAE의 이미지 토큰화

첫 번째 학습 단계에서는 이미지를 8,192개의 고유 벡터를 가진 코드북(Codebook) 기반의 토큰으로 변환하는 dVAE를 훈련한다. 입력 이미지는 Convolution Encoder를 거쳐 Logit 그리드가 되고, 토크나이저를 통해 코드북의 특정 인덱스로 매핑된다. Decoder는 이 토큰들을 다시 이미지로 복원하며, Reconstruction Loss와 코드북 벡터가 일반적인 특징을 학습하도록 돕는 Regularization Loss를 최소화한다.

08:00

2단계 학습: GPT의 자기회귀적 훈련

dVAE 학습이 완료되면 가중치를 고정한 상태에서 GPT를 학습시킨다. 텍스트 프롬프트는 256개의 토큰으로, 이미지는 dVAE를 통해 1,024개의 토큰으로 변환되어 총 1,280개의 토큰 시퀀스가 형성된다. GPT는 이 시퀀스 내에서 이전 토큰들을 바탕으로 다음 토큰을 예측하며, Cross-Entropy Loss를 통해 정답 시퀀스와의 오차를 줄인다.

자기회귀(Autoregressive) 모델은 과거의 출력을 현재의 입력으로 사용하여 순차적으로 데이터를 생성하는 방식이다.

11:38

추론 과정: 텍스트에서 이미지 생성

추론 시에는 텍스트 토큰만 입력으로 주어지며 GPT가 첫 번째 이미지 토큰부터 1,024번째 토큰까지 하나씩 생성한다. 생성된 1,024개의 토큰 시퀀스는 dVAE Decoder의 입력으로 전달된다. Decoder는 이 토큰들을 코드북 벡터로 치환하고 Convolution 연산을 수행하여 최종적으로 256x256 해상도의 RGB 이미지를 출력한다.

13:36

dVAE Encoder 아키텍처 상세

dVAE Encoder는 ResNet 스타일의 깊은 아키텍처를 채택하고 있다. 256x256x3 이미지를 입력받아 초기 Convolution과 여러 단계의 Residual Block 및 Strided Convolution을 거치며 해상도를 32x32로 줄인다. 마지막 1x1 Convolution을 통해 채널 수를 코드북 크기인 8,192로 확장하여 각 픽셀 위치에서의 토큰 확률 분포를 생성한다.

Strided Convolution은 필터를 일정 간격으로 건너뛰며 적용하여 출력 데이터의 크기를 줄이는 기법이다.

20:56

Gumbel-Softmax Relaxation을 이용한 미분 가능성 확보

이산적인 토큰을 선택하는 샘플링 과정은 미분이 불가능하여 역전파(Backpropagation)를 방해한다. 이를 해결하기 위해 Gumbel 분포의 노이즈를 Logit에 더하고 Softmax를 적용하는 Gumbel-Softmax Relaxation 기법을 사용한다. 이 방식은 샘플링 과정을 근사하면서도 전체 네트워크가 미분 가능하게 만들어 End-to-End 학습을 가능하게 한다.

Gumbel 분포는 극단값(최댓값 또는 최솟값)의 분포를 모델링할 때 사용되는 확률 분포이다.

실무 Takeaway

이미지를 이산적 토큰으로 변환할 때 dVAE를 사용하면 고해상도 데이터를 Transformer가 처리 가능한 시퀀스 형태로 압축할 수 있다.
미분 불가능한 이산 샘플링 연산은 Gumbel-Softmax Relaxation을 통해 미분 가능한 형태로 근사하여 신경망 학습 파이프라인에 통합할 수 있다.
텍스트와 이미지 토큰을 하나의 시퀀스로 결합하여 GPT와 같은 대규모 언어 모델 구조로 학습시키면 멀티모달 생성 능력을 확보할 수 있다.

언급된 리소스

논문DALL-E Main Paper (Zero-Shot Text-to-Image Generation)

GitHubDALL-E Architecture Code (Encoder)

DemoGumbel Distribution & Softmax Relaxation Colab

논문Image is worth 16 x 16 words (ViT Paper)

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 04. 27.수집 2026. 04. 27.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.