Together AI, 업계 최고 수준의 음성 합성 모델 MiniMax Speech 2.6 Turbo 출시

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Together AI는 고성능 음성 합성 모델인 MiniMax Speech 2.6 Turbo를 자사 플랫폼의 전용 인프라에서 독점적으로 제공한다. 이 모델은 250ms 미만의 초저지연 성능을 자랑하며, 40개 이상의 언어에 대해 실시간 스트리밍 언어 전환과 10초 분량의 샘플을 통한 고품질 음성 복제를 지원한다. 특히 Talkie의 방대한 대화 데이터를 기반으로 학습되어 낭독체가 아닌 실제 대화에 최적화된 자연스러운 운율과 자동 감정 인식 기능을 갖췄다. 개발자는 LLM 및 STT 워크로드와 동일한 인프라에서 통합된 API를 통해 고성능 음성 에이전트를 구축할 수 있다.

배경

Together AI API 사용법, TTS(Text-to-Speech) 기본 개념, 실시간 스트리밍(WebSocket) 통신에 대한 이해

대상 독자

실시간 음성 에이전트, 다국어 고객 서비스, 또는 고품질 콘텐츠 제작을 위해 초저지연 TTS 솔루션을 찾는 AI 개발자 및 엔지니어

의미 / 영향

이번 출시는 TTS 기술이 단순한 텍스트 읽기를 넘어 실제 인간과 유사한 대화 지능을 갖추는 단계로 진입했음을 의미한다. 특히 Together AI가 LLM, STT, TTS를 단일 인프라에서 통합 제공함으로써 개발자들은 복잡한 멀티 벤더 통합 없이도 고성능 음성 AI 서비스를 구축할 수 있는 환경을 갖게 되었다.

섹션별 상세

MiniMax Speech 2.6 Turbo는 Artificial Analysis Arena에서 인간 평가 1위를 기록한 최상위권 TTS 모델이다. 기존 모델들이 오디오북이나 팟캐스트 낭독 데이터를 학습한 것과 달리, 1억 5천만 명의 사용자를 보유한 Talkie의 실제 대화 데이터를 기반으로 학습되어 대화의 맥락에 맞는 자연스러운 호흡과 억양을 구현한다.

40개 이상의 글로벌 언어를 지원하며 문장 중간에서도 실시간으로 언어를 전환하는 스트리밍 인라인 스위칭 기능을 제공한다. 모델이 언어 경계를 자동으로 감지하여 원어민 수준의 발음으로 즉시 전환하므로, 다국어 사용자를 대상으로 하는 글로벌 서비스 배포에 최적화되어 있다.

별도의 프롬프트 엔지니어링 없이도 텍스트의 의미적 맥락을 분석하여 자동으로 감정을 조절한다. LLM이 사과하는 문장을 생성하면 모델이 이를 감지해 공감하는 톤으로 출력하며, 경고나 인사 등 상황에 맞는 운율을 자동으로 적용하여 대화의 몰입도를 높인다.

단 10초의 오디오 샘플만으로 특정 목소리를 복제할 수 있으며, 복제된 목소리는 40개 이상의 언어를 원어민 억양으로 구사할 수 있다. 배경 소음이나 부정확한 발음이 포함된 샘플에서도 고유의 음색을 정확히 추출하여 브랜드 고유의 목소리를 전 세계에 일관되게 적용할 수 있는 기능을 제공한다.

Together AI의 전용 GPU 엔드포인트를 통해 250ms 미만의 초저지연 성능을 보장한다. TTS를 LLM 및 STT 워크로드와 동일한 인프라에 배치함으로써 공급업체 간 네트워크 오버헤드를 제거하고, 실시간 대화형 AI 파이프라인 전체의 속도를 극대화했다.

실무 Takeaway

실시간 대화형 에이전트 구축 시 Together AI의 전용 엔드포인트를 활용하면 네트워크 오버헤드를 줄여 250ms 미만의 응답 속도를 확보할 수 있다.
다국어 지원이 필요한 서비스의 경우 MiniMax의 인라인 언어 전환 기능을 적용하여 단일 모델 배포만으로 40개 이상의 언어에 대응 가능하다.
고객 서비스나 게임 캐릭터 구현 시 자동 감정 인식 기능을 활용하면 LLM의 추론 결과에 맞춰 별도의 설정 없이도 상황에 적합한 음성 톤을 즉시 적용할 수 있다.

언급된 리소스

API DocsTogether AI TTS Documentation

문서Artificial Analysis Arena