YC Root AccessAI/ML31분2026년 3월 6일 00:00 KST4일 전

AssemblyAI 창업자 딜런 폭스가 말하는 음성 AI의 진화와 Universal-3 Pro 모델

AssemblyAI 창업자 딜런 폭스가 음성 AI 기술의 발전 과정, 실시간 처리의 기술적 도전, 그리고 차세대 지능형 음성 모델인 Universal-3 Pro의 개발 비하인드를 공유한다.

핵심 요약

음성 AI는 단순한 텍스트 변환을 넘어 실시간 지능형 에이전트로 진화하고 있다. AssemblyAI는 고유한 도메인 전문성과 고객 피드백 중심의 빠른 혁신을 통해 거대 기업과의 경쟁에서 우위를 점하고 있다.

배경

AssemblyAI는 2017년 Y Combinator를 거쳐 현재 10,000개 이상의 기업에 음성 AI 인프라를 제공하는 선도 기업이다.

대상 독자

AI 개발자, 기술 창업자, 음성 인식 기술에 관심 있는 엔지니어

의미 / 영향

음성 AI 기술이 단순 기록 도구에서 실시간 지능형 에이전트로 진화하면서 의료, 영업, 고객 지원 분야의 업무 방식이 근본적으로 변화할 것이다. AssemblyAI와 같은 인프라 플랫폼의 발전으로 중소 규모의 개발 팀도 복잡한 모델 구축 없이 고성능 음성 인터페이스를 즉시 구현할 수 있게 되었다. 이는 하드웨어와 소프트웨어 전반에서 음성이 주요 인터페이스로 자리 잡는 계기가 될 것이다.

챕터별 상세

00:00

AssemblyAI의 현재와 규모

AssemblyAI는 음성 AI 기능을 구축하려는 기업들을 위한 인프라 플랫폼이다. 현재 100만 명 이상의 개발자가 가입했으며 10,000개 이상의 고객사를 보유하고 있다. 작년 한 해 동안 2억 5천만 시간의 음성을 처리했고, 현재는 하루 200만 시간, 연간 7억 시간 규모로 성장 중이다. Zoom, Delta Airlines 등이 주요 고객사로 참여하고 있다.

•연간 7억 시간 이상의 음성 데이터 처리 규모 달성
•100만 명 이상의 개발자가 사용하는 음성 AI 인프라 구축
•Zoom 및 Delta Airlines 등 대형 엔터프라이즈 고객 확보

03:37

창업 배경: 독학 엔지니어에서 AI 창업자로

딜런 폭스는 대학 시절 독학으로 코딩을 배운 후 Cisco의 머신러닝 팀에서 신경망 연구를 시작했다. 2015년 아마존 에코(Amazon Echo)가 출시되었을 때, 기존의 조악했던 음성 인식 기술이 실생활에서 유용하게 작동하는 것을 보고 큰 영감을 받았다. 당시 개발자들이 사용할 수 있는 음성 인식 API가 매우 열악하고 비쌌던 점이 창업의 결정적 계기가 되었다. 그는 트윌리오(Twilio)나 스트라이프(Stripe) 같은 개발자 친화적인 음성 AI 플랫폼을 목표로 삼았다.

•Cisco 머신러닝 팀에서의 신경망 연구 경험
•Amazon Echo의 성공을 통한 음성 AI 시장의 가능성 확인
•열악한 기존 API 시장을 혁신하기 위한 개발자 중심 플랫폼 구상

07:05

2017년의 AI 시장과 초기 도전

2017년 당시 AI는 지금처럼 대중적인 용어가 아니었으며, 투자자들은 'AI'라는 단어를 사용하는 스타트업을 사기라고 의심하기도 했다. 당시에는 '딥러닝'이라는 용어가 더 기술적으로 신뢰받는 분위기였다. 구글이나 Nuance 같은 거대 기업이 이미 시장을 장악하고 있다는 인식이 강해 초기 투자 유치에 어려움을 겪었다. 딜런은 기술이 임계점을 넘으면 자율주행차처럼 시장이 폭발할 것이라는 확신을 가지고 버텼다.

•AI 용어에 대한 초기 시장의 회의적 시각 극복
•거대 테크 기업과의 경쟁에 대한 투자자들의 우려 대응
•기술적 임계점 돌파에 대한 확고한 신념 유지

12:24

5년의 인내와 성장의 전환점

2017년 창업 후 시리즈 A 투자를 받기까지 5년이라는 긴 시간이 걸렸다. 초기에는 시장 규모가 작고 기술적 완성도가 낮아 성장이 더뎠다. 하지만 코로나19 팬데믹으로 인해 원격 근무와 팟캐스트 등 음성 데이터 생성이 급증하면서 기회가 찾아왔다. 동시에 트랜스포머 아키텍처와 BERT 같은 모델이 등장하며 음성 인식의 정확도와 요약 성능이 비약적으로 향상되었다.

•창업 후 5년간의 기술 개발 및 시장 탐색 기간
•팬데믹으로 인한 디지털 음성 데이터의 폭발적 증가
•트랜스포머 아키텍처 도입을 통한 모델 성능의 비약적 발전

18:19

실시간 음성 AI: 새로운 기술적 지평

최근 18개월 동안 실시간 음성 모델이 기술적 임계점을 넘어서며 새로운 시장이 열리고 있다. 과거에는 녹음된 파일을 분석하는 비실시간 방식이 주류였으나, 이제는 실시간 음성 에이전트와 의료용 기록 서비스가 대세다. 실시간 처리에서는 정확도뿐만 아니라 지연 시간(Latency)과 비용을 동시에 최적화하는 것이 가장 큰 기술적 도전이다. AssemblyAI는 이를 위해 자체 서버 배포 및 모델 경량화 기술을 적용하고 있다.

•비실시간 분석에서 실시간 상호작용으로의 시장 변화
•지연 시간 단축과 비용 최적화가 실시간 AI의 핵심
•의료 및 영업 분야에서의 실시간 음성 기록 수요 급증

27:28

Universal-3 Pro: 지능형 음성 모델의 등장

단순히 말을 받아쓰는 단계를 넘어 문맥을 이해하는 지능형 모델인 Universal-3 Pro를 출시했다. 이 모델은 배경 소음 속에서도 특정 화자를 식별하고, 복잡한 이메일 주소나 긴 숫자 나열을 정확하게 인식한다. LLM의 지능을 음성 모델에 주입하여 사용자의 프롬프트 지시를 따를 수 있도록 설계되었다. 이는 기존의 멀티모달 LLM보다 빠르고 저렴하며 음성 관련 작업에 특화되어 있다.

•단순 전사를 넘어 문맥을 이해하는 지능형 음성 모델 개발
•복잡한 데이터(이메일, 숫자 등)에 대한 높은 인식 정확도 구현
•프롬프트를 통해 모델의 동작을 제어할 수 있는 유연성 확보

31:38

데모: Universal-3 Pro의 성능 시연

실제 데모를 통해 Universal-3 Pro가 심한 말더듬이나 속삭임도 정확하게 텍스트로 변환하는 모습을 보여주었다. 특히 복잡한 이메일 주소를 수정하거나 긴 난수를 인식하는 과정에서 인간보다 뛰어난 정확도를 보였다. 프롬프트를 입력하여 실시간으로 음성을 스페인어로 번역하거나, 여러 명이 동시에 말하는 구간(Crosstalk)을 자동으로 표시하는 기능도 시연되었다. 이는 모델이 음성 신호의 구조를 깊이 이해하고 있음을 증명한다.

•속삭임 및 말더듬 등 열악한 오디오 환경에서의 정확한 인식
•프롬프트를 활용한 실시간 번역 및 화자 구분 기능
•복잡한 영숫자 조합에 대한 탁월한 처리 능력 입증

실무 Takeaway

기술적 임계점(Threshold)을 넘는 순간 제품 시장 적합성(PMF)이 폭발적으로 발생한다.
거대 기업과의 경쟁에서는 특정 도메인에 대한 깊은 전문성과 고객 피드백 반영 속도가 핵심이다.
실시간 음성 AI는 지연 시간과 정확도의 균형을 맞추는 인프라 기술이 비즈니스의 성패를 결정한다.
미래의 음성 모델은 단순 전사를 넘어 LLM의 지능이 결합된 형태로 진화할 것이다.

언급된 리소스

API DocsAssemblyAI Documentation

문서Universal-3 Pro 모델 소개

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료