연결주의 시간적 분류
음성 신호와 텍스트 레이블 사이의 명시적인 정렬 없이 모델을 학습시키는 기법이다. 무음 구간에서 공백 토큰을 출력하도록 설계되어 있어, Whisper와 같은 시퀀스-투-시퀀스 아키텍처 모델보다 무음 환각 문제에 훨씬 강한 면모를 보인다.