브라우저에서 실행되는 Kitten TTS V0.8 기반 Next.JS 앱 공개

핵심 요약

Kitten TTS V0.8 모델을 활용하여 서버 없이 브라우저(클라이언트 사이드)에서 텍스트를 음성으로 변환하는 Next.JS 애플리케이션이다.

배경

Kitten TTS V0.8 출시를 계기로 브라우저 내 오디오 데이터 처리 가능성을 탐색하기 위해 제작되었다. 모든 처리가 클라이언트 측에서 이루어지는 최소 기능 제품(MVP) 형태의 Next.JS 앱을 구현하여 공유했다.

의미 / 영향

브라우저 기반 AI 추론이 실용적인 수준에 도달했음을 확인했다. 특히 OPFS를 통한 모델 캐싱과 ONNX Runtime Web의 조합은 서버 비용 없는 AI 서비스 배포의 가능성을 제시한다.

커뮤니티 반응

프로젝트의 경량성과 브라우저 실행 가능성에 대해 긍정적인 반응이며, WebGPU 이슈 해결에 대한 기술적 관심이 높다.

주요 논점

01찬성다수

서버 비용 없이 개인화된 TTS 서비스를 제공할 수 있는 혁신적인 접근 방식이다.

합의점 vs 논쟁점

합의점

브라우저 내 로컬 추론을 위해 OPFS 캐싱이 필수적이다.

논쟁점

WebGPU 백엔드에서의 무음 출력 문제 해결 방법이 불분명하다.

실용적 조언

브라우저 기반 AI 모델 배포 시 모델 용량에 따라 Nano 또는 Micro 모델을 선택하여 초기 로딩 속도를 조절해야 한다.

언급된 도구

Kitten TTS추천

텍스트 음성 합성 모델

onnxruntime-web추천

브라우저용 ONNX 추론 엔진

섹션별 상세

클라이언트 사이드 추론 구현 방식이 핵심이다. 모든 음성 합성 프로세스가 사용자 브라우저 내에서 실행되도록 설계되었다. Hugging Face에서 Nano, Micro, Mini 모델과 음성 임베딩을 직접 가져오며, 이를 브라우저의 원본 파일 시스템(OPFS)에 캐싱하여 재사용성을 높였다.

기술 스택 및 의존성 구성이 구체적이다. onnxruntime-web을 핵심 추론 엔진으로 사용하며, 텍스트 전처리를 위해 Xenova의 phonemizer.js를 활용한다. 현재 WebGPU 백엔드에서는 출력이 무음으로 나오는 기술적 한계가 있어 WASM 백엔드를 우선적으로 사용하고 있다.

플랫폼 호환성 및 제약 사항이 존재한다. 현재 데스크톱 크롬 환경을 중심으로 작동하며 Safari 및 모바일 크롬에서는 정상 동작하지 않는 문제가 보고되었다. 개발자는 WebGPU 이슈 해결과 모바일 지원 확대를 향후 과제로 언급했다.

이미지 분석

Screenshot
텍스트 입력창, 모델 선택 드롭다운(Nano/Micro/Mini), 음성 합성 실행 버튼 및 결과 오디오 플레이어가 포함된 웹 앱의 구조를 보여준다. 실제 브라우저에서 작동하는 UI 구성을 확인할 수 있다.
Next-Voice 애플리케이션의 사용자 인터페이스 스크린샷.

실무 Takeaway

Kitten TTS V0.8 모델을 브라우저 환경에서 서버 없이 실행 가능하다.
ONNX Runtime Web과 OPFS 캐싱을 통해 효율적인 클라이언트 사이드 AI 앱 구축이 가능하다.
현재 WebGPU 백엔드 안정성 문제로 인해 WASM 기반 처리가 권장된다.

언급된 리소스

DemoNext-Voice Demo

GitHubNext-Voice GitHub Repository