멀티모달 확산 트랜스포머
비디오와 오디오 등 서로 다른 형태의 데이터를 동시에 처리하기 위해 설계된 확산 모델 기반의 트랜스포머 아키텍처입니다. 각 데이터 유형에 최적화된 분기를 가지면서도 정보를 공유하여 일관성 있는 멀티모달 출력을 생성합니다.
1080p 고해상도 비디오와 오디오를 동시에 생성하는 SkyReels-V4