CODEC: Mac을 음성 제어 AI 워크스테이션으로 변환하는 오픈소스 로컬 AI 프레임워크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Mac 환경에서 LLM, 비전 모델, 음성 기술을 결합하여 화면 인식과 마우스 제어, 앱 자동화를 지원하는 개인정보 보호 중심의 로컬 AI 프레임워크다.

배경

난독증과 ADHD를 겪는 개발자가 자신에게 최적화된 개인용 AI 비서를 구축하기 위해 1년간 개발한 프로젝트를 오픈소스로 공개했다. 클라우드 의존성 없이 Mac의 로컬 자원만을 활용하여 보안과 성능을 동시에 확보하고자 했다.

의미 / 영향

이 프로젝트는 고성능 오픈소스 모델과 하드웨어 최적화 기술을 결합하여 클라우드 없이도 수준 높은 AI 비서를 구축할 수 있음을 보여준다. 특히 비전 모델을 통한 GUI 직접 제어는 기존 텍스트 중심 에이전트의 한계를 넘어서는 실무적 방향성을 제시한다.

커뮤니티 반응

대체로 매우 긍정적이며, 특히 로컬 환경에서 비전 기반 마우스 제어를 구현했다는 점에 많은 사용자가 놀라움을 표했다.

주요 논점

01찬성다수

클라우드 구독료 없이 100% 로컬에서 작동하며 프라이버시를 보장하는 AI 비서의 필요성에 공감한다.

02중립소수

UI-TARS 모델의 정확도와 Mac 하드웨어 사양에 따른 성능 차이에 대해 궁금해한다.

합의점 vs 논쟁점

합의점

기존의 무거운 AI 프레임워크 의존성을 줄이는 것이 로컬 실행 성능 향상에 중요하다.
개인용 AI 비서에서 데이터 프라이버시는 타협할 수 없는 핵심 요소이다.

실용적 조언

Mac에서 로컬 LLM을 실행할 때는 MLX 최적화 모델을 사용하여 메모리 효율을 높여야 한다.
에이전트가 시스템 명령을 실행하기 전에 반드시 사용자 승인 단계를 거치도록 설계하여 보안 사고를 예방해야 한다.
벡터 DB가 과한 경우 SQLite FTS5를 대안으로 검토하여 시스템 리소스를 절약할 수 있다.

섹션별 상세

CODEC은 UI-TARS라는 UI 전문 비전 모델을 사용하여 화면의 특정 요소를 인식하고 마우스 좌표를 계산한다. 사용자가 "제출 버튼을 찾아 클릭해줘"라고 말하면 시스템은 전체 화면을 캡처하여 비전 모델로 전송하고 반환된 픽셀 좌표로 마우스를 물리적으로 이동시킨다. 이 방식은 기존의 Accessibility API에 의존하지 않고 순수하게 시각 정보만으로 작동하므로 모든 앱에서 범용적으로 사용 가능하다. 로컬 환경에서 비전 모델을 활용해 실제 GUI 조작까지 자동화했다는 점에서 기술적 차별성을 가진다.

저자는 Mac Studio M1 Ultra 환경에서 MLX로 최적화된 Qwen 3.5 35b 모델을 메인 엔진으로 사용했다. 음성 인식에는 Whisper를, 음성 합성에는 Kokoro를 결합하여 입출력 파이프라인을 구축했으며 모든 처리는 클라우드 없이 로컬에서 수행된다. 4비트 양자화된 모델을 사용하여 64GB 통합 메모리 환경에서 실시간에 가까운 응답 속도를 확보했다. 이는 고성능 오픈소스 모델들을 조합하여 개인용 워크스테이션에서 완전한 AI 비서를 구현할 수 있음을 입증한다.

시스템 복잡도를 낮추기 위해 LangChain이나 CrewAI 같은 기존 프레임워크를 배제하고 800라인 미만의 경량 멀티 에이전트 프레임워크를 직접 구현했다. Pipecat 대신 자체적인 WebSocket 파이프라인을 구축하여 실시간 음성 통신 지연 시간을 단축했다. 데이터 저장소로는 벡터 DB 대신 SQLite의 FTS5 확장 기능을 사용하여 검색 속도와 관리 편의성을 동시에 잡았다. 무거운 외부 라이브러리 의존성을 제거함으로써 로컬 자원 사용을 최적화하고 유지보수성을 높였다.

시스템 제어 권한을 가진 AI 에이전트의 특성상 5단계의 보안 레이어를 적용하여 안전성을 강화했다. Cloudflare Zero Trust를 통한 이메일 화이트리스트 관리와 Touch ID 생체 인식, AES-256 종단간 암호화를 통해 외부 접근을 차단한다. 특히 Bash 명령 실행 전 사용자의 승인을 받는 'Allow/Deny' 프리뷰 단계와 30개 이상의 위험 패턴 차단 규칙을 내장했다. 모든 대화 기록은 로컬 SQLite DB에만 저장되어 데이터 주권과 프라이버시를 완벽히 보장한다.

코드 예제

bash

git clone https://github.com/AVADSA25/codec.git
cd codec
pip3 install pynput sounddevice soundfile numpy requests simple-term-menu
brew install sox
python3 setup_codec.py
python3 codec.py

CODEC 프로젝트를 로컬 환경에 설치하고 실행하기 위한 기본 명령어 시퀀스

실무 Takeaway

UI-TARS와 같은 특화 비전 모델을 활용하면 복잡한 API 연동 없이도 화면 요소를 인식하고 마우스를 제어하는 에이전트 구현이 가능하다.
MLX 프레임워크와 Qwen 3.5 35b 모델을 조합하여 Mac Studio 등 로컬 환경에서도 고성능 추론과 실시간 상호작용을 달성했다.
LangChain이나 CrewAI 대신 목적에 맞는 경량화된 자체 에이전트 로직을 작성함으로써 시스템 복잡도를 낮추고 실행 속도를 개선했다.
로컬 SQLite FTS5를 활용하여 별도의 벡터 DB 없이도 대화 맥락을 빠르게 검색하고 관리하는 효율적인 데이터 구조를 채택했다.

언급된 도구

MLX추천

Apple Silicon 최적화 머신러닝 프레임워크

Whisper추천

음성 인식(STT)

Kokoro추천

음성 합성(TTS)

UI-TARS추천

UI 인식 및 마우스 좌표 추출 비전 모델

언급된 리소스

GitHubCODEC GitHub Repository