Together AI, 자연스러운 다국어 전환 지원하는 Rime Arcana V3 음성 모델 출시

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Together AI는 다국어 대화에서 자연스러운 언어 전환(Code-switching)을 지원하는 Rime Arcana V3 및 V3 Turbo 모델을 플랫폼에 추가했다. V3 Turbo 모델은 영어와 스페인어 혼용 대화에 최적화되어 약 120ms의 매우 짧은 첫 오디오 생성 시간을 기록하며, V3 모델은 11개 언어 간의 전환을 지원한다. 이 모델들은 Together AI의 전용 엔드포인트에서 LLM 및 STT 워크로드와 함께 배치되어 전체 음성 에이전트 파이프라인의 지연 시간을 700ms 이내로 유지할 수 있게 한다. 이를 통해 다국어 시장을 타겟으로 하는 고객 서비스 및 의료, 금융 분야의 음성 AI 성능이 크게 향상될 전망이다.

배경

TTS(Text-to-Speech) 및 STT(Speech-to-Text) 기본 개념, Together AI API 사용법, 실시간 음성 스트리밍(WebSocket)에 대한 이해

대상 독자

실시간 다국어 음성 에이전트 및 고객 센터 AI를 개발하는 엔지니어 및 프로덕트 매니저

의미 / 영향

음성 AI의 고질적 문제였던 다국어 전환 시의 부자연스러움과 지연 시간 문제를 해결함으로써, 글로벌 서비스의 자동화 수준이 한 단계 격상될 것이다. 특히 인프라 통합을 통해 운영 복잡도와 비용을 동시에 낮춘 점이 업계에 긍정적인 영향을 미칠 것으로 보인다.

섹션별 상세

Rime Arcana V3 Turbo 모델은 영어와 스페인어가 혼용되는 이중 언어 환경에서 최적의 성능을 발휘하도록 설계되었다. 실제 이중 언어 사용자의 음성 패턴을 학습하여 문장 중간에 언어가 바뀔 때 발생하는 일시 정지 위치나 강세 변화를 자연스럽게 재현한다. Together AI 전용 엔드포인트 기준 약 120ms의 TTFA(Time-to-First-Audio)를 달성하여 실시간 대화에 적합한 반응 속도를 제공한다.

Rime Arcana V3 모델은 총 11개 언어를 지원하며 단일 모델 내에서 언어 간 자유로운 전환이 가능하다. 기존에는 언어별로 별도의 TTS 모델을 라우팅해야 했으나, V3는 하나의 엔드포인트에서 다국어를 처리하므로 인프라 관리 비용을 절감하고 언어 전환 시의 음색 및 운율 일관성을 유지한다. 이 모델의 평균 TTFA는 약 160ms 수준으로 측정되었다.

Together AI 플랫폼은 음성 에이전트 구축을 위해 LLM, STT, TTS 워크로드를 동일한 인프라 내에 공동 배치(Co-location)한다. 이러한 구조는 네트워크 지연 시간을 최소화하여 전체 파이프라인(인식-추론-합성)의 지연 시간을 인간이 자연스럽게 느끼는 700ms 임계값 이내로 유지하게 돕는다. 개발자는 단일 API와 통합된 모니터링 도구를 통해 전체 음성 파이프라인을 관리할 수 있다.

다국어 메트로 지역의 고객 센터나 금융, 의료와 같은 규제 산업에서 활용도가 높다. 사용자가 전문 용어는 영어로, 증상이나 상황 설명은 모국어로 말하는 실제 대화 패턴을 정확히 지원함으로써 자동화된 시스템의 사용자 유지율을 높인다. 또한 높은 동시 접속 처리 능력을 갖춰 대규모 콜센터 운영 시 GPU 효율성을 극대화할 수 있다.

실무 Takeaway

다국어 음성 에이전트 구축 시 Rime Arcana V3를 사용하면 모델 라우팅 없이 단일 엔드포인트에서 11개 언어의 자연스러운 전환을 구현할 수 있다.
실시간 대화 서비스에서 700ms 이내의 응답성을 확보하기 위해 Together AI의 전용 엔드포인트와 공동 배치 기능을 활용하여 TTS 지연 시간을 120-160ms로 단축해야 한다.
이중 언어 사용자가 많은 시장에서는 단순 번역 투의 음성이 아닌, 실제 원어민의 코드 스위칭 패턴을 학습한 모델을 적용하여 사용자 신뢰도를 높일 수 있다.

언급된 리소스

문서Together AI TTS Documentation