ElevenLabsAI/ML

ElevenLabs Scribe v2 API를 활용한 음성 텍스트 변환(STT) 가이드

ElevenLabs의 새로운 Scribe v2 모델을 사용하여 다국어 음성 인식, 화자 분리, 엔티티 감지 기능을 API로 구현하는 방법을 다룹니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Scribe v2는 단순 텍스트 변환을 넘어 화자 분리(Diarization), 엔티티 감지, 단어 단위 타임스탬프 등 강력한 기능을 제공하며 SDK를 통해 쉽게 구현 가능하다.

배경

ElevenLabs가 99개 이상의 언어를 지원하고 높은 정확도를 자랑하는 새로운 Speech to Text 모델인 Scribe v2를 출시했다.

대상 독자

음성 인식 기능을 서비스에 통합하려는 개발자 및 AI 엔지니어

의미 / 영향

Scribe v2의 출시로 개발자들은 고가의 구축형 솔루션 없이도 API 호출만으로 엔터프라이즈급 화자 분리 및 엔티티 감지 기능을 앱에 통합할 수 있다. 특히 99개 언어 지원은 글로벌 서비스의 로컬라이제이션 비용을 크게 절감시키며, 정밀한 타임스탬프 데이터는 자동 자막 생성 및 영상 편집 자동화 도구의 성능을 한 단계 끌어올릴 것이다. 보안이 중요한 서비스에서는 서버 측 구현을 통해 API 키를 보호하면서도 강력한 STT 기능을 안정적으로 제공 가능하다.

챕터별 상세

00:00

Scribe v2 소개 및 주요 기능

Scribe v2는 99개 이상의 언어를 지원하는 ElevenLabs의 최신 Speech to Text 모델이다. 단순한 텍스트 변환 외에도 특정 단어를 인식하도록 설정하는 Key term prompting, 전화번호나 이름 등을 식별하는 Identity detection 기능을 포함한다. 최대 48명의 화자를 구분할 수 있는 Speaker diarization과 동적 오디오 태깅 기능을 통해 복잡한 대화 상황에서도 높은 인식률을 유지한다.

•99개 이상의 다국어 지원 및 높은 인식 정확도 확보
•최대 48명까지 구분 가능한 화자 분리(Diarization) 기능 탑재
•Key term prompting을 통한 특정 브랜드명 및 전문 용어 인식 최적화

00:43

API 키 발급 및 환경 설정

ElevenLabs 개발자 플랫폼에서 API 키를 생성하고 권한을 설정한다. Speech to Text 엔드포인트에 대한 접근 권한이 반드시 포함되어야 하며, 생성된 키는 .env 파일에 ELEVENLABS_API_KEY라는 이름으로 저장하여 관리한다. 프로젝트 환경에 따라 pnpm 또는 npm을 사용하여 @elevenlabs/elevenlabs-js 라이브러리를 설치하고 dotenv를 통해 환경 변수를 로드한다.

•개발자 대시보드에서 Speech to Text 권한이 포함된 API 키 생성
•.env 파일을 활용한 보안적인 API 키 관리 방식 적용
•ElevenLabs 공식 JavaScript/TypeScript SDK 설치 및 초기화

01:36

Node.js를 이용한 기본 구현

ElevenLabsClient 인스턴스를 생성하고 speechToText.convert 메서드를 호출하여 오디오 파일을 변환한다. 오디오 데이터는 Blob 형태로 변환하여 전달하며, model_id 파라미터에 scribe_v2를 명시적으로 지정한다. 이 과정에서 fetch API를 사용하여 원격 오디오 파일을 가져오거나 로컬 파일을 읽어와 바이너리 데이터로 처리하는 파이프라인을 구축했다.

•ElevenLabsClient 클래스를 통한 API 통신 객체 생성
•오디오 파일을 Blob(Binary Large Object) 데이터 타입으로 변환하여 전송
•scribe_v2 모델 ID 지정을 통한 최신 엔진 호출

02:59

API 출력 데이터 구조 분석

API 호출 결과로 반환되는 JSON 객체에는 전체 텍스트와 함께 상세 메타데이터가 포함된다. 각 단어별로 시작 시간(start), 종료 시간(end), 그리고 인식 신뢰도를 나타내는 logprob 값이 제공된다. language_code를 통해 감지된 언어를 확인하고, 개별 단어 배열을 순회하며 정밀한 자막 생성이나 데이터 분석에 활용할 수 있는 구조이다.

•단어 단위의 정밀한 타임스탬프(시작/종료 시간) 데이터 제공
•logprob 수치를 통한 각 단어 인식 결과의 통계적 신뢰도 확인
•감지된 언어 코드 및 전체 변환 텍스트의 구조적 반환

04:13

고급 기능 설정: 화자 분리 및 엔티티 감지

convert 메서드의 옵션 객체에 diarize: true를 설정하여 화자 분리 기능을 활성화한다. entity_detection 옵션에 pii(개인정보), phone_number 등을 배열로 전달하면 텍스트 내의 민감 정보나 특정 엔티티를 자동으로 분류한다. 이러한 설정은 대화형 AI 서비스나 고객 상담 분석 시스템에서 화자별 발화 내용 정리 및 정보 추출에 핵심적인 역할을 한다.

•diarize 옵션 활성화를 통한 화자별 발화 구간 분리
•entity_detection 기능을 활용한 전화번호 및 개인정보 자동 식별
•배열 형태의 옵션 전달을 통한 다중 분석 기능 동시 적용

04:50

실전 애플리케이션 적용 사례

Astro 프레임워크를 사용한 실제 웹 애플리케이션 구현 사례를 통해 서버 사이드 렌더링 환경에서의 API 활용법을 제시했다. 클라이언트에서 녹음된 오디오를 서버 API 엔드포인트로 전송하고, 서버에서 Scribe v2를 호출하여 결과를 다시 클라이언트에 리스트 형태로 표시한다. API 키 노출을 방지하기 위해 모든 변환 로직은 서버 측에서 처리하도록 설계했다.

•Astro 프레임워크 기반의 서버 사이드 API 엔드포인트 구현
•클라이언트 녹음 데이터를 서버로 전송하여 처리하는 풀스택 워크플로
•보안을 고려한 서버 측 API 호출 및 환경 변수 처리 방식

실무 Takeaway

Scribe v2의 diarize 옵션을 true로 설정하면 최대 48명의 화자를 구분하여 대화록을 구조화할 수 있다
entity_detection 옵션에 'pii'를 추가하여 전화번호나 주소 같은 민감 정보를 자동으로 추출하고 관리할 수 있다
각 단어의 logprob 값을 체크하여 신뢰도가 낮은 구간만 별도로 검수하는 워크플로를 구축하여 효율성을 높일 수 있다

언급된 리소스

API DocsElevenLabs Scribe v2 Documentation

GitHubElevenLabs JavaScript SDK (GitHub)

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 01. 27.수집 2026. 02. 21.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

ElevenLabs Scribe v2 API를 활용한 음성 텍스트 변환(STT) 가이드 | AI Trends