오디오 주입
영상 생성 모델의 잠재 공간(Latent Space)에 오디오 데이터를 직접 입력하여 영상과 소리의 동기화를 꾀하는 기법이다. 별도의 후처리 없이 생성 단계에서 소리를 결합하려는 실험적 시도이다.