3D 변분 오토인코더
연속 프레임을 잠재공간으로 인코딩하는 VAE 구조이다. 비디오 프레임 시퀀스를 3차원(latent frames × H × W) 잠재로 매핑하여 디퓨전 모델의 입력으로 사용된다. 본 논문은 3D VAE로 비디오와 참조 이미지를 latent로 변환한 뒤 각기 다른 처리 경로로 보낸다.