AI EngineerAI/ML조회 1회

대규모 생성형 이미지 및 비디오 모델 구축의 핵심 기술

Google DeepMind의 Sander Dieleman이 데이터 큐레이션부터 잠재 공간 표현, 확산 메커니즘, 아키텍처 설계 및 제어 신호까지 대규모 생성 모델 구축 전반의 기술적 통찰을 공유한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

고품질 생성 모델은 단순한 아키텍처 개선을 넘어 데이터 큐레이션, 효율적인 잠재 공간 표현, 그리고 정교한 가이드 및 제어 기법의 조화로운 결합을 통해 완성된다.

배경

Google DeepMind의 연구 과학자인 Sander Dieleman이 AI Engineer Europe 컨퍼런스에서 발표한 내용이다.

대상 독자

생성형 AI 모델의 내부 작동 원리와 대규모 학습 전략을 이해하고자 하는 AI 엔지니어 및 연구자

의미 / 영향

이 강연은 대규모 생성 모델 구축 시 직면하는 연산 효율성과 품질 제어 문제를 해결하기 위한 실무적 가이드를 제공한다. 특히 픽셀 기반이 아닌 잠재 공간 기반의 접근과 JAX를 활용한 대규모 분산 학습 전략은 고성능 AI 모델 개발의 표준 공정을 제시한다. 향후 비디오 생성 분야에서 더 정교한 제어 신호 주입 기술이 발전함에 따라 전문가 수준의 영상 제작 도구가 대중화될 것으로 예상된다.

챕터별 상세

02:55

데이터 큐레이션의 중요성

고품질 결과물을 얻기 위해 데이터 큐레이션은 필수적인 과정이다. 연구 커뮤니티에서는 기존 벤치마크 데이터셋 사용을 권장하여 데이터 개선에 소홀한 경향이 있으나, 실제로는 모델 튜닝보다 데이터 분포 개선에 시간을 투자하는 것이 더 큰 성과를 가져온다. 이는 대규모 모델 학습에서 가장 과소평가된 요소 중 하나이다.

04:02

잠재 공간 표현과 압축

고해상도 이미지나 비디오를 픽셀 단위로 직접 처리하는 것은 메모리 한계로 인해 불가능하다. 따라서 오토인코더를 사용하여 데이터를 핵심 특징만 남긴 잠재 공간(Latent Space)으로 압축하여 연산량을 줄인다. 이때 일반적인 코덱과 달리 신경망 아키텍처가 활용하기 좋은 그리드 구조와 위상적 특징을 보존하는 압축 방식을 사용한다.

09:39

확산 모델의 작동 원리: 반복적 노이즈 제거

확산 모델은 데이터에 점진적으로 가우시안 노이즈를 추가하여 구조를 파괴한 뒤, 이를 역으로 복원하는 디노이저(Denoiser)를 학습한다. 샘플링 과정에서는 노이즈로부터 시작하여 모델이 예측한 깨끗한 이미지 방향으로 아주 작은 단계씩 이동하며 이미지를 생성한다. 한 번에 큰 단계를 이동하면 결과가 흐릿해지므로 여러 단계를 거쳐 세부 사항을 채워나가는 방식을 취한다.

16:13

스펙트럼 자동 회귀로서의 확산

확산 모델이 이미지 생성에 탁월한 이유는 주파수 분석 관점에서 설명 가능하다. 노이즈가 추가될수록 고주파 성분(세부 질감)부터 사라지고 저주파 성분(전체 윤곽)만 남게 된다. 복원 과정은 낮은 주파수의 전체적인 의미 구조를 먼저 잡고 점진적으로 높은 주파수의 세부 디테일을 추가하는 '스펙트럼 자동 회귀'와 유사하게 작동한다.

푸리에 변환(Fourier Transform)을 통해 이미지를 주파수 영역에서 분석하면 확산 모델의 단계별 생성 특성을 더 명확히 이해할 수 있다.

20:01

네트워크 아키텍처: UNet에서 Transformer로

초기 확산 모델은 이미지 복원에 강점이 있는 UNet 구조를 주로 사용했다. 최근에는 대규모 언어 모델(LLM)에서 검증된 확장성을 활용하기 위해 Transformer 아키텍처로 전환되는 추세이다. Transformer는 인과적 마스킹 없이 양방향 어텐션을 사용하여 이미지와 비디오의 공간적 구조를 더 효과적으로 학습할 수 있다.

21:15

비디오 생성을 위한 아키텍처 전략

비디오 생성 시 시간 축을 처리하는 방식은 크게 세 가지로 나뉜다. 전체 비디오 볼륨을 한꺼번에 처리하는 완전 확산 방식, 프레임 단위로 생성하는 자동 회귀 방식, 그리고 프레임은 확산으로 생성하되 시간적 연속성은 자동 회귀로 제어하는 하이브리드 방식이 있다. 실시간 비디오 생성 모델인 Genie 등은 이러한 하이브리드 전략을 채택하여 효율성을 높였다.

22:25

대규모 학습과 JAX 활용

모델 규모가 커짐에 따라 여러 칩에 데이터를 분산하는 데이터 병렬 처리와 모델 자체를 쪼개는 모델 병렬 처리가 필수적이다. Google DeepMind는 JAX 라이브러리의 `jax.pjit` 기능을 사용하여 복잡한 샤딩(Sharding)과 통신 최적화를 자동화한다. 이를 통해 수십억 개의 파라미터를 가진 모델을 수천 개의 TPU에서 효율적으로 학습시킨다.

23:33

Classifier-Free Guidance의 마법

생성 결과물의 품질을 극대화하기 위해 Classifier-Free Guidance 기법을 사용한다. 이는 조건이 없는 예측값과 텍스트 프롬프트 조건이 있는 예측값의 차이를 계산하여 그 방향으로 생성을 강하게 유도하는 방식이다. 이 기법을 적용하면 다양성은 다소 줄어들지만, 프롬프트 충실도와 시각적 선명도가 비약적으로 향상되어 현대 모든 확산 모델의 표준이 되었다.

28:03

증류(Distillation)를 통한 샘플링 가속화

확산 모델의 단점인 느린 생성 속도를 해결하기 위해 증류 기법을 적용한다. 수십 단계의 샘플링 과정을 단 몇 단계로 압축하는 Consistency Models 등이 대표적이다. 이는 모델이 여러 단계의 궤적을 한 번에 예측하도록 학습시켜 품질 저하를 최소화하면서 추론 속도를 획기적으로 높인다.

30:03

제어 신호와 포스트 트레이닝

단순한 텍스트 프롬프트를 넘어 스타일, 피사체, 카메라 움직임 등을 정교하게 제어하기 위한 신호를 주입한다. 이러한 제어 신호는 사전 학습 단계에서 모두 포함하기 어려우므로, LoRA와 같은 기법을 활용한 파인튜닝이나 인간의 선호도를 반영하는 RLHF 과정을 통해 모델에 이식한다. 이를 통해 사용자의 의도에 더 부합하는 고차원적인 생성이 가능해진다.

실무 Takeaway

데이터 큐레이션은 모델 아키텍처 튜닝보다 생성 품질 향상에 더 큰 영향을 미치는 핵심 요소이다.
확산 모델은 저주파의 구조적 정보에서 고주파의 세부 정보로 나아가는 '스펙트럼 자동 회귀' 방식으로 이미지를 완성한다.
Classifier-Free Guidance는 모델의 다양성을 희생하는 대신 프롬프트 일치도와 시각적 품질을 획기적으로 높이는 필수 기법이다.
비디오 생성 모델은 시간적 연속성을 위해 확산 모델과 자동 회귀 모델의 장점을 결합한 하이브리드 아키텍처를 주로 사용한다.

언급된 리소스

문서Sander Dieleman Blog

논문Attention is All You Need (Transformer Paper)

논문GLIDE: Towards Photorealistic Image Generation

논문Consistency Models

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 04. 22.수집 2026. 04. 22.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.