Loka가 Amazon Nova 2 Sonic으로 자연스럽고 저지연 음성 에이전트를 구축한 방법

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

Loka는 음성을 텍스트로 변환하는 기존 3단계 파이프라인의 지연과 정보 손실 문제를 해결하기 위해 Amazon Nova 2 Sonic을 활용한 speech-to-speech 아키텍처를 도입했다. 이 접근법은 음성 신호의 억양과 맥락을 보존하면서 입력 오디오를 모델이 직접 이해하고 음성으로 응답을 생성하도록 설계되어 대화의 자연스러움과 처리 효율을 동시에 개선한다.

평가 결과 Nova 2 Sonic은 Big Bench Audio에서 speech reasoning 87.0을 기록했으며 Time to First Audio는 1.39초로 제시되어 기존 텍스트 기반 파이프라인보다 빠른 응답을 제공하고 비용은 시간당 약 0.27달러로 비교적 낮게 보고됐다. 프롬프트 템플릿 반복 개선을 통해 Judge 점수가 베이스라인 2.7에서 Prompt v2의 3.8까지 상승했고, 실제 고객 페르소나 테스트에서 평균 점수가 4.0으로 나타나 실무 적용성이 입증되었다.

엔지니어링 관점에서는 LiveKit을 전송 계층으로, AWS Fargate·ECS·ElastiCache·RDS를 조합한 서버리스·이벤트 기반 아키텍처로 확장성과 회복력을 확보했고 Amazon Bedrock을 통해 Nova 2 Sonic을 호출하는 방식이 사용됐다. 다만 긴 산만한 발화나 고령자 페르소나에서 완성도와 오류 복구가 낮아지는 한계가 관찰되어 추가적인 프롬프트 엔지니어링과 튜닝이 필요하다.

섹션별 상세

고객 음성 통화를 텍스트로 변환한 뒤 LLM으로 처리하고 다시 음성으로 합성하는 전통적 파이프라인은 각 단계의 변환이 누적 지연을 만들고 억양·주저함 같은 음성 단서가 손실되어 대화의 자연스러움을 해친다. 이 문제는 특히 복합적 의도와 부정(예: ‘하이브리드 말고’)을 동시에 파악해야 하는 자동차 딜러 통화에서 명확히 드러난다. 전통적 흐름은 입력 음성→STT→LLM 텍스트 처리→TTS 출력의 연쇄로 구성되며 이 과정에서 평균 3~5초의 응답 지연이 발생해 사용자 경험과 전환율에 부정적 영향을 미친다. 대규모 지점에서 실시간 음성 처리를 유지하려면 지연뿐 아니라 비용 통제도 필수적이라는 경제적 제약이 존재한다.

음성을 직접 입력으로 받아 이해·추론·생성까지 처리하는 native speech-to-speech 모델은 음성 신호의 비언어적 단서를 보존하면서 지연을 크게 줄이는 방식으로 작동한다. Loka는 Amazon Nova 2 Sonic을 통해 입력 오디오를 모델에 스트리밍으로 전달하고 내부에서 의미 추론을 거쳐 바로 음성 토큰을 생성하는 처리 파이프라인을 구현했다. 벤치마크 측정에서는 Big Bench Audio에서 Nova 2 Sonic이 speech reasoning 87.0을 기록했고 Time to First Audio는 1.39초로 보고되어 Gemini 2.5 Flash(71.0·3.87초)와 GPT Realtime(83.0·0.98초)과 비교되는 성능·지연 특성을 보여준다. 이 방식은 대화 중 사용자의 끼어들기(barge-in)를 자연스럽게 지원해 대화 흐름의 인간 유사성을 확보한다.

Big Bench Audio에서 모델별 speech reasoning 점수 비교 차트이다. — Chart차트는 Nova 2 Sonic이 87.0으로 Gemini 2.5 Flash(71.0)와 GPT Realtime(83.0)를 상회함을 시각적으로 보여준다. 이 이미지는 본문 벤치마크 수치의 근거 자료로서 모델 간 추론 능력 비교를 직관적으로 전달하며 Nova 2 Sonic의 상대적 우위를 판단하는 데 직접적으로 기여한다.

Big Bench Audio에서 모델별 최초 음성 출력 시간(Time to First Audio) 비교 차트이다. — Chart이 차트는 Nova 2 Sonic의 Time to First Audio가 1.39초로 나타나며 Gemini 2.5 Flash의 3.87초보다 짧고 GPT Realtime의 0.98초와 비교되는 지연 특성을 확인시킨다. 지연 수치의 상대적 위치는 barge-in 지원 가능성과 대화 자연성에 관한 본문 주장을 뒷받침한다.

Big Bench Audio 기준 시간당 오디오 처리 비용을 모델별로 비교한 차트이다. — Chart이미지는 Nova 2 Sonic의 입력 기준 시간당 비용이 약 0.27달러이고 출력 비용 포함 총 합이 Gemini 및 GPT Realtime보다 낮게 보고된 점을 시각적으로 요약한다. 비용 비교는 대규모 운영에서의 경제성 주장을 뒷받침하는 근거 자료로 사용될 수 있다.

프롬프트 엔지니어링을 코드처럼 반복해서 개선함으로써 모델 거동을 제어하고 대화 품질을 계량화된 지표로 향상시켰다. 초기에는 템플릿화된 프롬프트와 변수 삽입으로 딜러별 설정을 런타임에 주입하는 방식을 도입했고, 이후 도구 사용 규칙·오류 회복·응답 전 체크리스트 같은 구조적 헤딩과 구체 행동 예시를 추가해 프롬프트을 두 차례 이상 반복 개선했다. 그 결과 베이스라인에서 전체 Judge 점수는 2.7에서 Prompt v2로 3.8까지 상승했고 세부 항목 중 Completeness는 1.8에서 2.5로, 응답 적합성은 2.5에서 2.9로 향상되어 복잡한 요청의 완수율이 개선되었다. 이러한 절차는 프롬프트를 Amazon Bedrock Prompt Management에 버전화하고 IAM 기반 거버넌스로 운용함으로써 프로덕션 운영에서 재사용성과 감사 가능성을 확보했다.

프로덕션 배포를 위해서는 지연과 확장성, 상태 관리를 고려한 아키텍처 설계가 필요했다. Loka는 LiveKit을 WebRTC/SIP 전송 계층으로 사용하고 LiveKit Agent를 컨테이너화해 AWS Fargate와 Amazon ECS에서 독립적으로 스케일링하도록 구성했으며, 세션·룸 관리는 Amazon ElastiCache로, 영구 상태는 Amazon RDS로 처리해 데이터 지연을 최소화했다. 모델 호출은 Amazon Bedrock를 통해 Nova 2 Sonic에 연결되며 툴 호출은 Python 기반 함수가 GraphQL을 통해 백엔드와 연동하는 방식으로 동작해 음성 에이전트의 결정이 외부 시스템으로 즉시 반영되게 설계되었다. 관찰성은 Langfuse를 사용해 모든 의사결정과 툴 호출을 추적해 평가 파이프라인으로 피드백하는 루프를 마련했다.

LiveKit, AWS Fargate, Amazon Bedrock 등을 포함한 솔루션 아키텍처 다이어그램이다. — Diagram아키텍처 다이어그램은 통화 경로(SIP·WebRTC)에서 LiveKit과 에이전트 컨테이너의 흐름, ElastiCache·RDS를 통한 상태 관리, Bedrock을 통한 모델 호출이 어떻게 연결되는지를 한눈에 보여준다. 이 이미지는 본문에 기술된 서버리스·이벤트 기반 설계와 구성 요소 간 책임 분리를 이해하는 데 필수적이다.

현장 테스트에서 전체 평균 점수는 비교적 높았지만 특정 페르소나에서 약점이 드러났다. 긴 비구조적 발화를 하는 Chatty Customer와 Elderly Customer 시나리오에서는 Completeness와 Error Recovery 항목이 각각 2.5와 2.0으로 낮아 모델의 발화 구조화 능력과 회복 전략이 추가 개선 과제로 남았다. 이러한 결과는 모델 능력 외에 프롬프트 전략과 도구 연동, 대화 중 요약·정리 메커니즘 같은 보완 요소가 필요함을 시사하며 실제 운영에서는 계속된 A/B 테스트와 프롬프트 튜닝이 병행되어야 한다. 그럼에도 불구하고 평균 엣지케이스 점수가 4.0으로 보고되어 이미 여러 실제 시나리오에서 실용적 가치를 제공하고 있다.

실무 Takeaway

음성을 중간 텍스트로 변환하지 않는 speech-to-speech 파이프라인은 억양과 맥락 신호를 보존해 응답 자연성과 추론 정확도를 높이므로 실시간 음성 인터랙션에서 지연과 정보 손실을 동시에 줄일 수 있다.
프롬프트를 템플릿화하고 구체적 행동 예시와 체크리스트를 포함해 반복적으로 개선하면 모델의 Completeness와 Conversational Naturalness 점수를 계량적으로 향상시켜 복잡한 고객 요청을 한 회화 내에서 해결할 확률을 높일 수 있다.
운영 환경에서는 WebRTC/SIP 전송을 LiveKit에 위임하고 AWS Fargate·ElastiCache·RDS로 세션·상태 관리를 분리하면 미디어 처리와 비즈니스 로직의 독립적 확장으로 대규모 지점에 대한 비용·성능 관리가 수월해진다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

섹션별 상세

실무 Takeaway

음성을 중간 텍스트로 변환하지 않는 speech-to-speech 파이프라인은 억양과 맥락 신호를 보존해 응답 자연성과 추론 정확도를 높이므로 실시간 음성 인터랙션에서 지연과 정보 손실을 동시에 줄일 수 있다.
프롬프트를 템플릿화하고 구체적 행동 예시와 체크리스트를 포함해 반복적으로 개선하면 모델의 Completeness와 Conversational Naturalness 점수를 계량적으로 향상시켜 복잡한 고객 요청을 한 회화 내에서 해결할 확률을 높일 수 있다.
운영 환경에서는 WebRTC/SIP 전송을 LiveKit에 위임하고 AWS Fargate·ElastiCache·RDS로 세션·상태 관리를 분리하면 미디어 처리와 비즈니스 로직의 독립적 확장으로 대규모 지점에 대한 비용·성능 관리가 수월해진다.

Loka가 Amazon Nova 2 Sonic으로 자연스럽고 저지연 음성 에이전트를 구축한 방법

TL;DR

섹션별 상세

실무 Takeaway

Loka가 Amazon Nova 2 Sonic으로 자연스럽고 저지연 음성 에이전트를 구축한 방법

TL;DR

섹션별 상세

실무 Takeaway

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드