Cohere, 20억 파라미터 규모의 오픈소스 음성 인식 모델 'Transcribe' 출시

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기업용 AI 기업 Cohere가 자사 최초의 음성 인식 모델인 'Transcribe'를 오픈소스로 출시했다. 이 모델은 20억 개의 파라미터를 가진 경량 모델로, 고가의 기업용 장비 없이 소비자용 GPU에서도 원활하게 구동되도록 설계되었다. Hugging Face Open ASR 벤치마크에서 단어 오류율(WER) 5.42를 기록하며 기존 경쟁 모델들을 제치고 1위를 차지했다. 한국어를 포함한 14개 언어를 지원하며, Cohere의 에이전트 플랫폼 'North'와 API를 통해 무료로 제공되어 기업용 음성 분석 및 노트 테이킹 시장을 공략한다.

배경

GPU 컴퓨팅 기초, ASR(자동 음성 인식) 개념, API 연동 지식

대상 독자

음성 인식 기능을 서비스에 도입하려는 엔터프라이즈 개발자 및 AI 엔지니어

의미 / 영향

Cohere가 텍스트 중심에서 멀티모달(음성)로 영역을 확장하며 엔터프라이즈 AI 시장에서의 경쟁력을 강화하고 있다. 특히 고성능 경량 모델을 오픈소스로 공개함으로써 온프레미스 환경을 선호하는 기업 고객들을 유인할 것으로 보인다.

섹션별 상세

Cohere는 20억 파라미터 규모의 경량 자동 음성 인식(ASR) 모델인 'Transcribe'를 오픈소스로 공개했다. 이 모델은 사용자가 직접 호스팅할 수 있도록 소비자급 GPU 최적화에 중점을 두어 설계되었다. 한국어, 영어, 중국어 등 총 14개 주요 언어를 지원하며 회의록 작성 및 음성 분석 업무에 특화되어 있다.

성능 측면에서 Transcribe는 Hugging Face Open ASR 리더보드에서 평균 단어 오류율(WER) 5.42를 달성하며 업계 최고 수준을 기록했다. Zoom Scribe v1, IBM Granite 4.0 등 경쟁 모델과의 비교 벤치마크에서 우위를 점했으며, 인간 평가단 대상 정확도 및 가독성 테스트에서도 61%의 승률을 보였다. 다만 포르투갈어, 독일어, 스페인어 등 일부 언어에서는 경쟁 모델 대비 다소 낮은 성능을 보였다.

처리 속도는 1분당 최대 525분의 오디오 데이터를 처리할 수 있는 수준으로, 동급 모델 중 매우 높은 효율성을 자랑한다. Cohere는 이 모델을 자사의 기업용 에이전트 오케스트레이션 플랫폼인 'North'에 통합할 예정이며, 현재 API를 통해 무료로 제공하고 있다. 이는 최근 급증하는 Granola, Wispr Flow와 같은 음성 기반 생산성 도구 수요에 대응하기 위한 전략으로 풀이된다.

실무 Takeaway

소비자용 GPU에서 2B 규모의 Transcribe 모델을 직접 호스팅하여 데이터 보안을 유지하면서 고성능 음성 인식을 구현할 수 있다.
WER 5.42의 높은 정확도와 분당 525분 처리라는 빠른 속도를 활용해 대규모 오디오 아카이브의 텍스트 변환 비용을 획기적으로 낮출 수 있다.
Cohere API를 통해 무료로 접근 가능하므로 추가 비용 부담 없이 기존 엔터프라이즈 워크플로우에 음성 인식 기능을 통합할 수 있다.