토큰 및 지속 시간 트랜스듀서
NVIDIA가 제안한 아키텍처로, 텍스트 토큰과 해당 토큰의 지속 시간을 동시에 예측한다. 기존 RNN-T 방식보다 추론 속도가 빠르며 긴 오디오 세그먼트 처리에 효율적이다.