네이티브 오디오
중간 텍스트 변환 단계 없이 오디오 데이터를 직접 입력받고 출력하는 모델 구조이다. 이를 통해 대기 시간을 줄이고 화자의 억양이나 감정 같은 비언어적 정보를 더 정확하게 처리할 수 있다.