MacBook M5 Pro에서 로컬 코딩 AI 구축하기: 시행착오와 최적의 설정

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

MacBook Pro M5 Pro(48GB RAM) 환경에서 외부 API 없이 독립적인 로컬 코딩 AI를 구축하는 과정을 다룬다. 초기 시도했던 mlx-lm 서버는 KV 캐시 관리 문제로 인해 긴 대화 시 GPU 메모리 부족으로 크래시가 발생했다. 이를 해결하기 위해 고정된 컨텍스트 크기를 제공하는 Ollama를 선택했으며, Apple Silicon에 최적화된 mxfp8 양자화 버전의 Qwen 3.6 35B MoE 모델을 적용했다. 최종적으로 Modelfile 수정을 통해 코딩 품질을 저해하는 페널티 설정을 제거함으로써 안정적이고 고성능인 로컬 개발 환경을 완성했다.

배경

Apple Silicon MacBook (M-시리즈), 기본적인 터미널 명령어 및 Docker/Ollama 사용법, JSON 기반의 에디터 설정 지식

대상 독자

Apple Silicon 기반 기기에서 개인용 로컬 코딩 AI 서버를 구축하려는 개발자

의미 / 영향

고성능 MoE 모델과 최적화된 양자화 기술의 발전으로 이제 48GB 수준의 소비자용 하드웨어에서도 클라우드 API 없이 전문적인 코딩 보조가 가능해졌음을 시사한다.

섹션별 상세

Apple Silicon 전용 라이브러리인 mlx-lm 서버는 실무 환경에서 사용하기에 안정성이 부족했다. KV 캐시가 무제한으로 증가하면서 Metal GPU 메모리를 모두 점유하여 시스템이 강제 종료되는 현상이 반복됐다. 0.31.3 버전 기준으로 서버 컴포넌트의 메모리 관리 기능이 미비하여 단발성 생성 외의 지속적인 대화에는 부적합함이 확인됐다.

Ollama는 컨텍스트 크기를 강제로 제한하여 메모리 크래시 문제를 해결했다. OLLAMA_KEEP_ALIVE 설정을 통해 모델 재로드 대기 시간을 없애고 네트워크 호스트 설정을 통해 외부 기기에서도 접속 가능한 환경을 구축했다. 32,768 토큰의 컨텍스트 환경에서도 100% GPU 가동률을 유지하며 안정적으로 작동했다.

bash

mlx_lm.server \
  --model unsloth/Qwen3.6-27B-UD-MLX-4bit \
  --port 8080 \
  --host 0.0.0.0

MLX 기반 서버를 실행하여 로컬 API 엔드포인트를 생성하는 명령어

모델 선택 시 일반적인 GGUF 양자화보다 Apple Silicon에 최적화된 mxfp8 형식이 우수한 품질을 보였다. Qwen 3.6 35B MoE 모델은 전체 크기는 크지만 토큰당 활성 파라미터가 3B 수준이라 48GB 메모리 환경에서 매우 빠른 속도를 제공했다. 특히 mxfp8 양자화는 8비트 부동 소수점을 사용하여 4비트 양자화 모델보다 코딩 정확도가 높았다.

bash

OLLAMA_HOST=0.0.0.0 OLLAMA_KEEP_ALIVE=24h ollama serve

네트워크 접속을 허용하고 모델 로드 상태를 유지하도록 Ollama 서버를 실행하는 설정

기본 설정된 presence_penalty 값이 코딩 모델의 성능을 저해하는 요소로 작용했다. 변수명이나 키워드가 반복되어야 하는 코드 작성 특성상 반복을 억제하는 페널티는 품질 저하의 원인이 됐다. Modelfile을 통해 해당 값을 0으로 조정하고 컨텍스트를 16K로 최적화하여 실무에 적합한 응답을 얻을 수 있었다.

dockerfile

FROM qwen3.6:35b-a3b-mxfp8
PARAMETER num_ctx 16384
PARAMETER presence_penalty 0
PARAMETER temperature 0.7

코딩 성능 최적화를 위해 컨텍스트 크기와 페널티 설정을 조정한 Ollama Modelfile

실무 Takeaway

Apple Silicon에서 mlx-lm 서버 사용 시 KV 캐시 무제한 증가로 인한 OOM 크래시를 주의해야 하며, 안정성이 중요하다면 Ollama를 대안으로 선택해야 한다.
코딩용 LLM 설정 시 presence_penalty를 0으로 설정하여 변수명이나 구문이 반복되는 코드의 특성을 보존해야 모델의 논리적 오류를 줄일 수 있다.
48GB 통합 메모리 환경에서는 Qwen 3.6 35B MoE 모델의 mxfp8 양자화 버전을 사용하는 것이 속도와 정확도 측면에서 가장 균형 잡힌 성능을 제공한다.

언급된 리소스

문서Unsloth Qwen3.6-27B MLX

API DocsOpenCode Config Schema