미미 코덱
오디오 파형을 이산적인 토큰 시퀀스로 압축하는 신경망 기반 오디오 코덱이다. 화자의 음성에서 억양, 리듬 등 비언어적 특징을 보존하면서도 언어 모델이 텍스트와 함께 처리할 수 있는 이산 토큰 형태로 변환한다.