Apple Silicon을 위한 온디바이스 음성 툴킷 — Swift 기반 ASR, TTS, 화자 분리 지원

핵심 요약

Apple Silicon의 GPU와 Neural Engine을 최적화하여 ASR, TTS, 화자 분리 등 11가지 음성 모델을 로컬에서 실행하는 Swift 오픈소스 패키지이다.

배경

Apple Silicon 환경에서 클라우드 의존성 없이 고성능 음성 처리를 구현하기 위해 MLX와 CoreML을 결합한 오픈소스 Swift 패키지를 개발하여 커뮤니티에 공유했다.

의미 / 영향

이 프로젝트는 Apple Silicon의 하드웨어 특성을 극대화하기 위해 서로 다른 추론 엔진을 전략적으로 배치하는 설계 패턴을 제시했다. 커뮤니티는 단순한 모델 이식을 넘어 자원 관리 최적화가 온디바이스 AI 성능의 핵심임을 확인했으며, 이는 향후 Swift 기반 AI 앱 설계의 중요한 참고 사례가 될 것이다.

커뮤니티 반응

대체로 긍정적이며, 특히 WhisperKit의 ANE 점유 문제를 해결했다는 점에 대해 많은 개발자가 관심을 보였다.

주요 논점

01찬성다수

하이브리드 엔진 설계가 온디바이스 AI의 성능 한계를 극복하는 올바른 방향이다.

합의점 vs 논쟁점

합의점

온디바이스 음성 처리를 위해 GPU와 Neural Engine의 병렬 활용이 필수적이다.
4-bit 양자화 모델이 모바일 및 데스크톱 환경에서 실용적인 성능을 제공한다.

실용적 조언

Apple Silicon 기기에서 음성 앱 개발 시 MLX와 CoreML을 병행하여 GPU와 ANE 부하를 분산할 것
대형 모델은 4-bit 양자화를 통해 메모리 사용량을 최적화하여 온디바이스 실행 환경을 확보할 것

전문가 의견

WhisperKit의 CoreML 오디오 인코더가 ANE를 300-600ms 동안 차단하는 현상은 실시간 멀티태스킹의 큰 장애물이며, 이를 장치 분산으로 해결한 설계는 실무적으로 매우 가치 있다.

언급된 도구

MLX추천

Apple Silicon GPU 기반 대형 모델 추론 가속

CoreML추천

Neural Engine 기반 소형 모델 및 오디오 전처리 최적화

DeepFilterNet3추천

실시간 48kHz 노이즈 억제

섹션별 상세

MLX와 CoreML을 혼합하여 사용하는 하이브리드 아키텍처를 채택했다. 대형 모델은 GPU 자원을 활용하는 MLX로 실행하고, VAD와 같은 소형 모델은 Neural Engine을 사용하는 CoreML로 실행한다. 이러한 설계를 통해 하드웨어 자원 간의 충돌을 방지하고 전체 시스템의 처리 효율을 높였다. 이는 단일 엔진에 의존할 때 발생하는 병목 현상을 해결하는 핵심적인 접근 방식이다.

기존의 WhisperKit이 가진 한계점을 구체적으로 지적하며 개선 방향을 제시했다. WhisperKit의 CoreML 오디오 인코더는 호출당 ANE를 300~600ms 동안 점유하여 다른 작업의 병렬 실행을 방해하는 문제가 있다. 본 툴킷은 모델별로 최적의 연산 장치를 할당함으로써 VAD가 ANE에서 돌아가는 동안 ASR이 GPU에서 동시에 실행될 수 있도록 구현했다. 이를 통해 실시간성이 중요한 음성 서비스에서 끊김 없는 처리가 가능해졌다.

최신 오픈소스 모델들을 적극적으로 도입하여 성능과 효율성을 동시에 잡았다. Qwen3-ASR 및 TTS, CosyVoice3 등 최신 모델들을 4-bit 양자화 버전으로 탑재하여 온디바이스 메모리 부담을 줄였다. 특히 PersonaPlex 7B 모델을 활용한 Full-duplex 방식의 Speech-to-speech 기능을 구현하여 대화형 AI 서비스의 가능성을 보여주었다. 모든 모델은 공통 프로토콜을 준수하므로 개발자가 필요에 따라 구현체를 쉽게 교체할 수 있다.

실제 하드웨어에서의 구체적인 성능 지표를 공개했다. M2 Max 칩셋 기준으로 Parakeet TDT 모델은 0.06의 RTF를 기록했으며, TTS 모델은 첫 번째 음성 청크를 생성하기까지 약 120ms의 지연 시간만을 소요한다. 또한 DeepFilterNet3를 CoreML로 구현하여 48kHz 고음질 오디오의 노이즈를 실시간으로 억제하는 등 실무 적용 가능한 수준의 최적화를 달성했다.

실무 Takeaway

Apple Silicon의 GPU(MLX)와 ANE(CoreML)를 분산 활용하여 하드웨어 자원 경합 문제를 해결했다.
11가지 최신 음성 모델을 4-bit 양자화하여 온디바이스에서 클라우드 없이 완전 로컬로 실행 가능하다.
ASR, TTS, 화자 분리, 노이즈 억제 등 음성 처리 전 과정을 Swift 패키지 하나로 통합 제공한다.

언급된 리소스

GitHubspeech-swift GitHub Repository

문서speech-swift Roadmap & Discussions