Mac Mini 32GB 모델의 로컬 LLM 성능 벤치마크 결과

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Mac Mini 32GB 환경에서 Unsloth 20B 모델을 실행하여 초당 34토큰의 추론 속도와 0.7초의 첫 토큰 생성 시간을 기록한 성능 공유 게시물이다.

Mac Mini 32GB 환경에서 로컬 LLM의 구체적인 성능 수치를 찾기 어려워, 직접 측정한 벤치마크 결과를 커뮤니티에 공유했다.

Apple Silicon의 통합 메모리 아키텍처가 20B급 중형 모델의 로컬 추론에서 뛰어난 가성비와 성능을 제공함을 입증했다. 특히 32GB 램 모델이 로컬 LLM 입문 및 실무 활용의 핵심적인 기준점이 될 수 있음을 시사한다.

구체적인 수치 정보에 대해 긍정적인 반응이며, 유사한 하드웨어 구성을 가진 사용자들에게 유용한 참고 자료로 평가받는다.

01찬성다수

Apple Silicon Mac Mini 32GB 모델은 20B급 모델을 로컬에서 구동하기에 매우 효율적인 하드웨어이다.

LM Studio추천

로컬 LLM 실행 및 관리 인터페이스

Unsloth추천

LLM 파인튜닝 및 최적화 라이브러리

Mac Mini 32GB 모델에서 Unsloth의 gpt-oss-20b-Q4_K_S.gguf 모델을 사용하여 성능을 측정했다. 20B 규모의 모델임에도 불구하고 4비트 양자화(Q4_K_S)를 적용하여 32GB 통합 메모리 환경에서 안정적으로 구동됨을 확인했다.

추론 속도는 초당 34토큰(34 tok/s)으로 나타났다. 이는 일반적인 읽기 속도보다 빠르며, 로컬 환경에서 20B 모델을 실사용하기에 충분히 쾌적한 수준의 성능임을 시사한다.

첫 토큰 생성 시간(TTFT)은 0.7초를 기록했다. 컨텍스트 크기를 26,035로 설정하고 Flash Attention을 활성화한 상태에서 얻은 결과로, 대규모 문맥 처리 시에도 초기 응답 지연이 매우 낮음을 보여준다.

세부 설정으로 GPU 오프로드 레이어 18개, CPU 스레드 풀 7개, 최대 동시 실행 4개, 전문가 수 4개를 적용했다. 특히 Flash Attention 옵션을 켜서 메모리 효율과 속도를 최적화한 것이 성능 유지의 핵심 요인으로 분석된다.