native-audio
중간 텍스트 변환 단계 없이 오디오 데이터를 직접 입력받고 출력하는 모델 구조이다. 이를 통해 대기 시간을 줄이고 화자의 억양이나 감정 같은 비언어적 정보를 더 정확하게 처리할 수 있다.
구글 Gemini 2.5 Flash, 실시간 통역과 정교한 음성 에이전트 시대를 열다
Gemini 2.5 Flash, 실시간 통역과 정교한 음성 에이전트로 진화