음성 토큰화
원시 오디오를 HuBERT와 같은 self-supervised 모델로 변환한 뒤 양자화하여 얻은 이산 단위의 시퀀스이다. 한 단어는 발화 길이에 따라 가변 길이의 음성 토큰 스팬으로 표현되며 이로 인해 단어-레벨 정렬이 필요하다. 본 논문에서는 이러한 정렬을 통해 단어 수준의 로짓 렌즈 분석을 수행했다.