핵심 요약
텍스트는 이미지와 달리 연속적이지 않은 이산적 데이터이므로 가우시안 노이즈를 더하는 방식이 불가능하다. 이를 해결하기 위해 상태 전이 확률(Transition Matrix)을 활용한 Discrete DDPM(D3PM) 구조를 채택한다.
배경
이미지 생성에서 혁신을 일으킨 Diffusion 모델을 텍스트 데이터에 적용하려는 시도가 늘어나고 있습니다.
대상 독자
Diffusion 모델의 원리를 이해하고 언어 모델로의 확장에 관심이 있는 AI 연구자 및 개발자
의미 / 영향
이 영상은 이미지 생성 기술인 Diffusion이 어떻게 텍스트 생성 영역으로 확장될 수 있는지에 대한 이론적 토대를 제공한다. 상태 전이 확률을 이용한 이산적 모델링 방식은 향후 텍스트뿐만 아니라 범주형 데이터를 다루는 다양한 AI 아키텍처 설계에 중요한 참고가 된다.
챕터별 상세
이미지 Diffusion과 언어 모델의 차이
가우시안 노이즈는 평균이 0이고 분산이 1인 정규분포를 따르는 무작위 신호를 의미하며 연속적인 수치 데이터에 주로 사용된다.
Discrete DDPM(D3PM)의 개념
상태 전이 행렬(Transition Matrix)은 한 상태에서 다른 상태로 변화할 확률을 표 형태로 정리한 것이다.
상태 전이 확률 모델의 수식화
원-핫 벡터는 단 하나의 요소만 1이고 나머지는 0인 벡터로 이산적인 범주형 데이터를 표현할 때 사용한다.
언어 모델 상황으로의 확장
서브워드(Subword)는 단어를 더 작은 단위로 쪼갠 것으로 언어 모델이 어휘를 효율적으로 처리하기 위해 사용한다.
실무 Takeaway
- 텍스트 데이터는 이산적(Discrete)이므로 연속적인 가우시안 노이즈를 사용하는 기존 Diffusion 방식을 직접 적용할 수 없다
- D3PM은 데이터를 상태(State)로 보고 상태 전이 확률(Transition Matrix)을 통해 노이즈 주입과 제거 과정을 모델링한다
- 언어 모델에 적용할 경우 어휘 사전의 크기가 상태의 개수가 되며 문장 내 각 토큰 위치가 개별적인 상태 변화의 대상이 된다
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.