Video Diffusion Transformer
비디오 디퓨전 모델의 트랜스포머 기반 백본으로, 3D RoPE를 포함한 self-attention과 cross-attention을 통해 시계열 영상 생성을 수행한다.