공동 생성
비디오와 오디오를 각각 따로 만들어 합치는 것이 아니라, 하나의 모델 내부에서 두 데이터를 동시에 생성하는 방식이다. 이를 통해 시각적 사건과 소리의 시간적 일치도를 극대화할 수 있다.
영상과 소리를 동시에 생성한다? 바이트댄스 Seedance 2.0의 혁신