첫 오디오 생성 시간
사용자의 입력이 끝난 후 AI가 첫 번째 오디오 데이터를 생성하여 출력을 시작할 때까지 걸리는 시간이다. 실시간 대화형 AI에서 사용자 경험을 결정짓는 핵심 지표로, 보통 200ms 이하를 목표로 한다.
문장 중간에 언어를 바꿔도 자연스러운 AI 음성 모델 Rime Arcana V3