핵심 요약
구글은 실시간 음성 에이전트의 성능을 극대화하기 위해 Gemini 2.5 Flash Native Audio 모델을 업데이트했다. 이번 업데이트는 함수 호출(Function Calling)의 정확도를 높이고 복잡한 지시사항 이행 능력을 강화하여 더욱 자연스러운 다회차 대화를 가능하게 한다. 특히 구글 번역 앱에 도입된 실시간 음성 통역 기능은 화자의 억양과 속도를 유지하며 70개 이상의 언어를 지원한다. 현재 Vertex AI에서 정식 버전으로 제공되며, 개발자들은 이를 활용해 기업용 고객 서비스 에이전트 등을 구축할 수 있다.
배경
Vertex AI 또는 Gemini API 사용 경험, Function Calling 및 API 연동에 대한 기본 지식, 실시간 오디오 스트리밍 처리에 대한 이해
대상 독자
실시간 음성 AI 에이전트 및 다국어 통역 서비스를 구축하려는 개발자 및 기업 솔루션 아키텍트
의미 / 영향
이번 업데이트는 LLM의 음성 처리 능력을 텍스트 변환 없이 직접 수행하는 '네이티브' 방식으로 완전히 전환했음을 의미한다. 이는 지연 시간을 획기적으로 줄이고 인간과 유사한 감정적 교감을 가능하게 하여, 단순 챗봇을 넘어선 진정한 실시간 AI 비서 시대를 앞당길 것이다.
섹션별 상세

실무 Takeaway
- 실시간 음성 에이전트 구축 시 Gemini 2.5 Flash Native Audio를 활용하면 함수 호출 정확도를 71.5%까지 높여 외부 데이터 연동의 신뢰성을 확보할 수 있다.
- 복잡한 비즈니스 로직이 포함된 음성 워크플로우에서 90%의 지시사항 준수율을 통해 사용자 만족도를 높이고 운영 오류를 줄일 수 있다.
- 글로벌 서비스를 운영하는 기업은 70개 이상의 언어를 지원하고 화자의 음성 스타일을 보존하는 실시간 통역 기능을 활용해 다국어 고객 지원 시스템을 효율적으로 구축할 수 있다.
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.