Together AI, Rime의 기업용 TTS 모델 Arcana v2 및 Mist v2 출시

핵심 요약

Together AI는 Rime의 독점 텍스트 음성 변환(TTS) 모델인 Arcana v2와 Mist v2를 모델 라이브러리에 추가했다. 이번 통합을 통해 개발자는 LLM, STT, TTS를 단일 API와 인프라에서 운영할 수 있게 되어 네트워크 오버헤드를 줄이고 전체 파이프라인 지연 시간을 700ms 미만으로 유지할 수 있다. 특히 Mist v2는 업계 최초로 API를 통한 결정론적 발음 제어 기능을 제공하여 고유 명사나 전문 용어의 발음 정확도를 보장한다. 이는 고객 서비스, 의료, 금융 등 신뢰성과 실시간성이 중요한 기업용 음성 에이전트 시장을 겨냥한 행보이다.

배경

LLM API 사용 경험, 음성 합성(TTS) 및 음성 인식(STT) 기본 개념, 실시간 스트리밍(WebSocket)에 대한 이해

대상 독자

실시간 음성 AI 에이전트를 구축하는 엔터프라이즈 개발자 및 MLOps 엔지니어

의미 / 영향

이번 출시는 파편화되어 있던 음성 AI 스택을 단일 플랫폼으로 통합하여 운영 복잡성과 지연 시간을 획기적으로 낮췄다. 특히 결정론적 발음 제어는 의료나 금융처럼 정확도가 필수적인 산업에서 AI 음성 비서 도입을 가속화하는 핵심 동력이 될 것이다.

섹션별 상세

Arcana v2는 실제 고객 서비스 대화 데이터를 기반으로 학습되어 자연스러운 호흡, 추임새, 대화 속도를 구현한다. 40개 이상의 목소리와 다양한 지역 방언을 지원하며, 영어와 스페인어 간의 자연스러운 코드 스위칭(언어 전환)이 가능하다. 실제 도입 사례에서 통화 포기율 75% 감소 및 판매율 15% 상승과 같은 실질적인 비즈니스 성과를 입증했다.

Mist v2는 대규모 운영 환경에서 발음의 정확성을 보장하기 위해 설계된 결정론적 TTS 모델이다. 기존 모델들이 생성 시마다 발음을 추측하는 것과 달리, Mist v2는 API를 통해 특정 단어의 발음을 한 번 정의하면 모든 목소리와 채널에서 동일하게 렌더링한다. 이는 브랜드명, 약품명, 기술 용어 등 오발음이 치명적인 분야에서 높은 신뢰도를 제공한다.

Together AI의 전용 엔드포인트를 통해 Mist v2는 약 225ms의 첫 오디오 생성 시간(TTFA)을 달성했다. 음성 에이전트가 자연스럽게 느껴지기 위한 전체 지연 시간 임계값인 700ms를 충족하기 위해, STT와 LLM 처리에 필요한 여유 시간을 확보해준다. 모든 구성 요소가 동일한 클라우드 인프라에 위치하므로 다중 벤더 사용 시 발생하는 네트워크 지연 문제를 해결했다.

기업용 인프라로서의 안정성과 보안성을 강화하여 SOC 2 Type II, HIPAA, PCI 준수 환경을 제공한다. 전용 GPU 용량을 통해 워크로드를 격리하고 99.9%의 가동 시간 SLA를 보장하며, 데이터 보유 제로(Zero Data Retention) 정책을 통해 고객의 데이터 소유권을 보호한다. 단일 SDK와 인증 체계를 사용하여 기존 LLM 워크플로에 TTS를 쉽게 통합할 수 있다.

실무 Takeaway

음성 에이전트의 자연스러움을 위해 전체 파이프라인(STT-LLM-TTS) 지연 시간을 700ms 이내로 관리해야 하며, 이를 위해 TTS 지연 시간을 250ms 이하로 억제해야 한다.
고유 명사나 전문 용어의 발음 오류를 방지하기 위해 결정론적 발음 제어(Deterministic Pronunciation) 기능을 활용하여 API 수준에서 발음을 고정할 수 있다.
LLM과 음성 모델을 동일한 인프라(Together AI)에 배치함으로써 다중 벤더 호출로 인한 네트워크 지연을 제거하고 보안 규정 준수 검토를 단일화할 수 있다.

언급된 리소스

API DocsTogether AI TTS Documentation