Together AI, Deepgram Nova-3 및 Aura-2 모델 네이티브 지원 발표

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Together AI는 Deepgram의 Nova-3, Nova-3 Multilingual, Flux, Aura-2 모델을 자사 전용 모델 추론 인프라에서 네이티브로 실행할 수 있도록 지원한다. 기존 음성 에이전트 구축 시 여러 공급업체를 거치며 발생하던 네트워크 지연과 복잡성을 해결하기 위해 STT, LLM, TTS를 하나의 플랫폼으로 통합했다. Deepgram의 Flux 모델은 단순 침묵 감지가 아닌 문맥 기반 턴 감지를 통해 250ms 수준의 빠른 반응성을 제공하며, Nova-3는 소음이 많은 실제 환경에서도 높은 정확도를 유지한다. 이 통합을 통해 기업은 SOC 2 및 HIPAA를 준수하는 안전한 환경에서 고성능 실시간 음성 서비스를 운영할 수 있다.

배경

Together AI API 사용 경험, STT/TTS 파이프라인에 대한 기본 이해, 실시간 스트리밍 데이터 처리 지식

대상 독자

실시간 음성 AI 에이전트를 구축하고 프로덕션 환경에서 운영하려는 개발자 및 엔터프라이즈 아키텍트

의미 / 영향

이번 통합은 파편화되어 있던 음성 AI 스택을 단일 클라우드 인프라로 결합함으로써 실시간 서비스의 최대 적인 지연 시간을 획기적으로 줄였습니다. 이는 단순한 도구 추가를 넘어 고성능 음성 에이전트의 상용화 문턱을 낮추고 의료, 금융 등 전문 분야로의 확장을 가속화할 것입니다.

섹션별 상세

실시간 음성 에이전트의 핵심 병목인 지연 시간과 턴 전환 문제를 해결하기 위해 Deepgram 모델을 Together AI 인프라에 직접 배치했다. 여러 API 공급업체 간의 네트워크 홉을 제거함으로써 데이터 전송 시간을 단축하고 시스템의 안정성을 높였다. 이를 통해 개발자는 단일 플랫폼에서 전체 음성 파이프라인을 관리하며 더 자연스러운 대화 경험을 설계할 수 있다.

Flux 모델은 대화 문맥을 분석하여 화자가 말을 마쳤는지 판단하는 지능형 턴 감지 기능을 제공한다. 기존의 단순 침묵 기반 엔드포인팅 로직은 불필요한 대기 시간을 만들거나 말을 끊는 문제가 있었으나, Flux는 250ms 내에 정확한 턴 전환 신호를 생성한다. 결과적으로 복잡한 추가 로직 없이도 매끄러운 실시간 상호작용이 가능해졌다.

Nova-3 모델은 배경 소음이나 억양, 통신 압축 등 실제 운영 환경의 열악한 오디오 조건에서도 신뢰할 수 있는 텍스트 변환 성능을 발휘한다. 특히 어휘 커스터마이징 기능을 지원하여 재학습 없이도 특정 도메인의 전문 용어 인식률을 개선할 수 있다. 다국어 버전인 Nova-3 Multilingual은 대화 도중 언어가 바뀌는 상황도 유연하게 처리한다.

Aura-2는 비즈니스 환경에 최적화된 엔터프라이즈급 TTS 모델로 명료하고 일관된 음성 합성을 지원한다. 전문 용어나 구조화된 데이터를 읽을 때 목소리의 안정성을 유지하여 데모 수준을 넘어선 실제 운영 환경에서의 신뢰도를 확보했다. STT와 TTS를 동일 플랫폼에서 실행함으로써 입출력 간의 데이터 정합성과 성능 제어력을 극대화했다.

Together AI의 전용 모델 추론 인프라는 격리된 GPU 용량과 99.9%의 가동 시간 SLA를 제공하여 대규모 확장을 지원한다. SOC 2 Type II, HIPAA 준수 및 데이터 보존 제로 옵션을 통해 금융과 의료 등 규제가 엄격한 산업군에서도 안심하고 사용할 수 있다. 단일 SDK와 인증 체계를 사용하여 LLM과 음성 모델을 통합 관리할 수 있는 개발자 경험을 제공한다.

실무 Takeaway

실시간 음성 에이전트 구축 시 Together AI 플랫폼을 사용하면 STT, LLM, TTS 간의 네트워크 지연을 최소화하여 250ms 수준의 빠른 반응성을 확보할 수 있다.
Deepgram Flux의 문맥 기반 턴 감지 기능을 활용하면 복잡한 엔드포인팅 로직 없이도 화자의 의도를 정확히 파악해 자연스러운 대화 흐름을 만들 수 있다.
의료나 금융 등 전문 분야에서는 Nova-3의 어휘 커스터마이징 기능을 적용해 도메인 특화 용어의 인식 정확도를 즉각적으로 높일 수 있다.

언급된 리소스

API DocsDeepgram STT Documentation

API DocsDeepgram TTS Documentation