Stanford OnlineIndustry

ElevenLabs 창업자 Mati Staniszewski 인터뷰: 음성 AI의 미래와 비즈니스 전략

ElevenLabs의 CEO Mati Staniszewski가 음성 합성 기술의 발전 과정, 계층형 아키텍처에서 실시간 에이전트로의 진화, 그리고 급격한 비즈니스 성장을 이끈 전략을 공유한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

ElevenLabs는 감정이 실린 자연스러운 음성 합성을 통해 시장을 개척했다. 기술적으로는 신뢰성 있는 계층형 시스템과 저지연 융합 모델 사이의 균형을 맞추며, 고객 가치 중심의 가격 정책으로 폭발적인 성장을 이뤄냈다.

배경

스탠퍼드 대학교의 CS153 강좌에서 진행된 인터뷰로, 세계적인 음성 AI 기업 ElevenLabs의 창업 스토리를 다룬다.

대상 독자

AI 스타트업 창업자, 음성 기술 개발자, AI 비즈니스 전략에 관심 있는 전문가

의미 / 영향

ElevenLabs의 사례는 고품질 음성 AI가 단순한 도구를 넘어 실시간 소통이 가능한 에이전트로 진화하고 있음을 보여준다. 지연 시간 단축과 감정 표현의 정교화는 고객 상담, 교육, 엔터테인먼트 산업의 인터페이스를 근본적으로 바꿀 것이다. 특히 온디바이스 배포의 확산은 보안과 비용 문제를 해결하며 음성 AI의 일상화를 가속화할 것으로 전망된다.

챕터별 상세

05:14

ElevenLabs의 시작과 폴란드 영화 더빙의 영감

폴란드에서는 모든 영화 등장인물의 대사를 한 명의 성우가 단조롭게 읽어주는 독특한 더빙 문화가 있었다. 창업자들은 이러한 불편함을 AI 기술로 해결하고자 화자의 감정과 톤을 유지하는 AI 더빙 기술 개발에 착수했다. 초기에는 Discord 봇 형태로 서비스를 시작하여 창작자 커뮤니티의 즉각적인 피드백을 받으며 제품을 개선했다. 이는 기술적 완성도보다 실제 사용자의 문제 해결에 집중한 결과였다.

07:49

계층형 파이프라인 아키텍처의 구조

초기 음성 시스템은 음성 인식(Transcription), 번역 및 추론(LLM), 음성 합성(TTS)의 세 단계 모델을 순차적으로 연결한 계층형 구조를 채택했다. 각 단계가 독립적으로 작동하므로 오류 수정과 제어가 용이하며 기업용 서비스에서 높은 신뢰성을 제공한다. 하지만 단계별 처리에 따른 지연 시간(Latency) 발생이 실시간 대화의 걸림돌이 되었다. ElevenLabs는 이 파이프라인의 마지막 단계인 음성 생성의 품질을 극대화하는 데 우선순위를 두었다.

11:11

감정과 맥락을 이해하는 음성 합성 기술

단순히 텍스트를 읽는 것을 넘어 문맥에 맞는 감정을 표현하기 위해 LLM의 예측 능력을 음성 합성에 결합했다. 모델은 다음 토큰을 예측하듯 다음 음성의 톤과 억양을 문맥에 따라 결정한다. 이를 통해 슬픈 문장에서는 차분하게, 기쁜 문장에서는 활기차게 목소리를 낼 수 있게 되었다. 하드코딩된 파라미터 대신 추상화된 모델 파라미터를 사용하여 화자의 특성을 더 정교하게 재현한다.

18:55

실시간 음성 에이전트와 융합 모델의 진화

최근 기술 트렌드는 계층형 시스템에서 여러 기능을 하나로 합친 융합 모델(Fused Model)로 이동하고 있다. 융합 모델은 텍스트를 거치지 않고 오디오 토큰을 직접 처리하여 지연 시간을 300ms 수준으로 단축한다. ElevenLabs는 신뢰성이 중요한 비즈니스용에는 계층형을, 반응 속도가 중요한 인터랙티브 서비스에는 융합 모델을 제안하는 하이브리드 전략을 취한다. 감정 감지 기능을 강화하여 상대방의 감정 상태에 따라 적절한 톤으로 응답하는 에이전트를 개발 중이다.

51:13

비즈니스 성장과 조직 운영 전략

ElevenLabs는 36개월 만에 연간 반복 매출(ARR) 4억 3천만 달러를 달성하며 급성장했다. 조직은 10명 미만의 소규모 독립 팀들로 구성되어 각 팀이 빠른 의사결정과 실행 권한을 가진다. 가격 정책은 운영 비용이 아닌 고객이 얻는 가치(Value-based pricing)를 기준으로 설정하며, 가치의 약 10%를 청구하는 방식을 지향한다. 제품 주도 성장(PLG)과 엔터프라이즈 영업을 병행하여 시장 지배력을 확대하고 있다.

62:36

보안, 안전 및 온디바이스 배포

음성 복제 기술의 오남용을 막기 위해 생성된 음성에 워터마크를 삽입하고 추적 시스템을 구축했다. 음성 인증(Voice Authentication)은 보안상 취약점이 크므로 금융 등 고위험 분야에서는 사용하지 않을 것을 권고한다. 또한 클라우드 의존도를 낮추기 위해 특정 언어와 기능에 최적화된 온디바이스(On-device) 모델 배포를 시작했다. 이는 개인정보 보호와 오프라인 환경에서의 사용성을 동시에 만족시키기 위한 전략이다.

용어 해설

Text-to-Speech: — 텍스트를 인공적인 음성으로 변환하는 기술이다. ElevenLabs는 단순한 기계음이 아닌 감정과 억양이 포함된 자연스러운 목소리를 생성하는 데 집중하며 시장을 선도하고 있다.
Cascaded System: — 음성 인식, 번역, 음성 합성 등 여러 독립적인 모델을 순차적으로 연결한 구조이다. 각 단계의 결과가 다음 단계의 입력이 되며, 현재 AI 음성 에이전트의 신뢰성과 제어 가능성을 확보하는 주류 방식이다.
Fused Model: — 여러 모달리티(텍스트, 오디오 등)를 하나의 신경망에서 동시에 처리하는 모델이다. 계층형 시스템보다 지연 시간이 낮고 자연스러운 반응이 가능하지만, 제어와 신뢰성 확보가 상대적으로 어렵다.
AI Dubbing: — 원본 영상의 음성을 분석하여 다른 언어로 번역하고, 원본 화자의 목소리 톤과 감정을 유지한 채 새로운 언어로 음성을 생성하는 기술이다.

언급된 리소스

DemoElevenLabs 공식 홈페이지

문서Stanford CS153 강의 사이트

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 05. 05.수집 2026. 05. 05.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.