더 강력한 음성 상호작용을 위한 Gemini 오디오 모델 업그레이드

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

구글은 실시간 음성 에이전트의 성능을 극대화하기 위해 Gemini 2.5 Flash Native Audio 모델을 업데이트했다. 이번 업데이트는 함수 호출(Function Calling)의 정확도를 높이고 복잡한 지시사항 이행 능력을 강화하여 더욱 자연스러운 다회차 대화를 가능하게 한다. 특히 구글 번역 앱에 도입된 실시간 음성 통역 기능은 화자의 억양과 속도를 유지하며 70개 이상의 언어를 지원한다. 현재 Vertex AI에서 정식 버전으로 제공되며, 개발자들은 이를 활용해 기업용 고객 서비스 에이전트 등을 구축할 수 있다.

배경

Vertex AI 또는 Gemini API 사용 경험, Function Calling 및 API 연동에 대한 기본 지식, 실시간 오디오 스트리밍 처리에 대한 이해

대상 독자

실시간 음성 AI 에이전트 및 다국어 통역 서비스를 구축하려는 개발자 및 기업 솔루션 아키텍트

의미 / 영향

이번 업데이트는 LLM의 음성 처리 능력을 텍스트 변환 없이 직접 수행하는 '네이티브' 방식으로 완전히 전환했음을 의미한다. 이는 지연 시간을 획기적으로 줄이고 인간과 유사한 감정적 교감을 가능하게 하여, 단순 챗봇을 넘어선 진정한 실시간 AI 비서 시대를 앞당길 것이다.

섹션별 상세

Gemini 2.5 Flash Native Audio는 실시간 음성 에이전트의 핵심인 함수 호출 성능을 크게 개선했다. ComplexFuncBench Audio 평가에서 71.5%의 점수를 기록하며, 대화 흐름을 끊지 않고 외부 정보를 정확히 가져와 응답에 반영하는 능력을 입증했다.

Gemini 2.5 Flash Native Audio의 성능 지표를 이전 버전 및 경쟁 모델과 비교한 차트이다. — ChartComplexFuncBench Audio 벤치마크에서 71.5%의 점수를 기록하며 함수 호출 및 복잡한 지시사항 이행 능력이 크게 향상되었음을 시각적으로 보여준다. 이는 모델이 실시간 대화 중 외부 정보를 얼마나 정확하게 처리하는지를 입증하는 핵심 데이터이다.

모델의 지시사항 준수율(Instruction Following)이 기존 84%에서 90%로 향상되어 복잡한 워크플로우 처리가 더욱 정교해졌다. 이는 개발자가 설정한 제약 사항 내에서 모델이 더 일관된 결과물을 생성하도록 돕는다.

다회차 대화(Multi-turn conversation)의 맥락 유지 능력이 강화되어 이전 대화 내용을 더 효과적으로 검색하고 활용한다. 이를 통해 사용자는 AI와 더욱 응집력 있고 자연스러운 대화를 이어갈 수 있다.

구글 번역 앱에 베타로 출시된 실시간 음성 통역 기능은 화자의 억양, 속도, 피치를 보존하는 스타일 전이 기술을 적용했다. 70개 이상의 언어와 2,000개 이상의 언어 쌍을 지원하며 소음이 많은 환경에서도 안정적인 성능을 보여준다.

Shopify, United Wholesale Mortgage, Newo.ai 등 실제 기업들이 Gemini의 네이티브 오디오 기능을 도입하여 고객 서비스 에이전트와 대화형 지능 시스템의 성능을 개선하고 있다.

실무 Takeaway

실시간 음성 에이전트 구축 시 Gemini 2.5 Flash Native Audio를 활용하면 함수 호출 정확도를 71.5%까지 높여 외부 데이터 연동의 신뢰성을 확보할 수 있다.
복잡한 비즈니스 로직이 포함된 음성 워크플로우에서 90%의 지시사항 준수율을 통해 사용자 만족도를 높이고 운영 오류를 줄일 수 있다.
글로벌 서비스를 운영하는 기업은 70개 이상의 언어를 지원하고 화자의 음성 스타일을 보존하는 실시간 통역 기능을 활용해 다국어 고객 지원 시스템을 효율적으로 구축할 수 있다.

언급된 리소스

API DocsGemini API Speech Generation Documentation

GitHubGemini API Cookbook

DemoGoogle AI Studio