음성 기반 비디오 생성
음성 신호를 입력받아 그에 맞는 입모양과 얼굴 표정을 포함한 비디오를 생성하는 기술이다. 정지 이미지와 음성을 결합하여 실제 말하는 듯한 아바타를 만드는 데 사용된다.
RTX 3090으로 구현한 고품질 로컬 AI 아바타 생성 워크플로우