TL;DR
MacBook Pro M5 Pro(48GB RAM) 환경에서 외부 API 없이 독립적인 로컬 코딩 AI를 구축하는 과정을 다룬다. 초기 시도했던 mlx-lm 서버는 KV 캐시 관리 문제로 인해 긴 대화 시 GPU 메모리 부족으로 크래시가 발생했다. 이를 해결하기 위해 고정된 컨텍스트 크기를 제공하는 Ollama를 선택했으며, Apple Silicon에 최적화된 mxfp8 양자화 버전의 Qwen 3.6 35B MoE 모델을 적용했다. 최종적으로 Modelfile 수정을 통해 코딩 품질을 저해하는 페널티 설정을 제거함으로써 안정적이고 고성능인 로컬 개발 환경을 완성했다.
배경
Apple Silicon MacBook (M-시리즈), 기본적인 터미널 명령어 및 Docker/Ollama 사용법, JSON 기반의 에디터 설정 지식
대상 독자
Apple Silicon 기반 기기에서 개인용 로컬 코딩 AI 서버를 구축하려는 개발자
의미 / 영향
고성능 MoE 모델과 최적화된 양자화 기술의 발전으로 이제 48GB 수준의 소비자용 하드웨어에서도 클라우드 API 없이 전문적인 코딩 보조가 가능해졌음을 시사한다.
섹션별 상세
mlx_lm.server \
--model unsloth/Qwen3.6-27B-UD-MLX-4bit \
--port 8080 \
--host 0.0.0.0MLX 기반 서버를 실행하여 로컬 API 엔드포인트를 생성하는 명령어
OLLAMA_HOST=0.0.0.0 OLLAMA_KEEP_ALIVE=24h ollama serve네트워크 접속을 허용하고 모델 로드 상태를 유지하도록 Ollama 서버를 실행하는 설정
FROM qwen3.6:35b-a3b-mxfp8
PARAMETER num_ctx 16384
PARAMETER presence_penalty 0
PARAMETER temperature 0.7코딩 성능 최적화를 위해 컨텍스트 크기와 페널티 설정을 조정한 Ollama Modelfile
실무 Takeaway
- Apple Silicon에서 mlx-lm 서버 사용 시 KV 캐시 무제한 증가로 인한 OOM 크래시를 주의해야 하며, 안정성이 중요하다면 Ollama를 대안으로 선택해야 한다.
- 코딩용 LLM 설정 시 presence_penalty를 0으로 설정하여 변수명이나 구문이 반복되는 코드의 특성을 보존해야 모델의 논리적 오류를 줄일 수 있다.
- 48GB 통합 메모리 환경에서는 Qwen 3.6 35B MoE 모델의 mxfp8 양자화 버전을 사용하는 것이 속도와 정확도 측면에서 가장 균형 잡힌 성능을 제공한다.
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.