음성 토큰화(speech-tokenization)이란 무엇인가요?

Question

Accepted Answer

원시 오디오를 HuBERT와 같은 self-supervised 모델로 변환한 뒤 양자화하여 얻은 이산 단위의 시퀀스이다. 한 단어는 발화 길이에 따라 가변 길이의 음성 토큰 스팬으로 표현되며 이로 인해 단어-레벨 정렬이 필요하다. 본 논문에서는 이러한 정렬을 통해 단어 수준의 로짓 렌즈 분석을 수행했다.

speech-tokenization

비슷한 개념