디퓨전 트랜스포머
기존의 U-Net 구조 대신 Transformer 아키텍처를 디퓨전 모델의 백본으로 사용하는 구조이다. 확장성이 뛰어나 최신 고해상도 비디오 생성 모델(Wan 2.1, Sora 등)의 표준 아키텍처로 자리 잡았다.