화자 분리
오디오 신호에서 누가 언제 말했는지를 식별하여 화자별로 텍스트를 분류하는 기술이다. 회의록 작성이나 인터뷰 정리 시 필수적인 기능이다.
"30분 분량 녹음을 1분 만에" 로컬 GPU 가속 기반 STT 도구 등장