제로샷 음성 적응
추가적인 학습 없이 짧은 샘플 오디오만으로 특정 인물의 목소리를 즉시 흉내 내는 기술이다. 3초 정도의 짧은 녹음만으로도 화자의 억양과 감정적 특성을 복제할 수 있다.