Apple Silicon 기기별 LLM 추론 성능 벤치마크 분석

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

이 프로젝트는 iPhone, iPad, Mac 등 Apple Silicon 기기에서 로컬 LLM을 구동하는 다양한 런타임의 성능을 측정하는 중립적 벤치마크 프레임워크이다. MLX-Swift, llama.cpp, CoreML, LiteRT-LM 등 주요 런타임을 대상으로 추론 처리량(tok/s), 메모리 점유율, 에너지 효율을 비교한다. 실험 결과, GPU 기반 런타임은 초기 처리량은 높으나 발열로 인한 스로틀링이 발생하며, CoreML/ANE는 메모리 효율은 뛰어나지만 처리 속도가 상대적으로 느리다. 이 데이터는 기기별 하드웨어 제약 조건 내에서 최적의 추론 엔진을 선택하기 위한 실증적 근거를 제공한다.

대상 독자

Apple Silicon 환경에서 온디바이스 LLM을 최적화하려는 개발자

의미 / 영향

이 벤치마크는 온디바이스 AI 개발 시 단순히 처리량(tok/s)만 볼 것이 아니라, 지속적인 추론 시 발생하는 발열 스로틀링과 메모리 점유율을 종합적으로 고려해야 함을 시사한다. 특히 모바일 환경에서는 ANE 활용이 전력 및 발열 관리 측면에서 중요한 전략이 될 수 있다.

섹션별 상세

런타임별 성능 차이: MLX-Swift는 Qwen 3.5 2B 모델에서 61.2 tok/s를 기록하며 높은 처리량을 보였으나, LiteRT-LM은 Gemma 4 E2B 모델에서 더 높은 효율을 나타냈다.

iPhone 17 Pro에서의 런타임별 추론 처리량과 최대 메모리 점유율 비교 차트. — ChartLiteRT-LM이 Gemma 모델에서 가장 높은 처리량을 보이며, CoreML/ANE는 메모리 점유율이 가장 낮음을 보여준다. 런타임별로 성능과 메모리 효율의 트레이드오프가 명확히 나타난다.

메모리 효율성: CoreML/ANE는 chunked-MLKV 기술을 통해 Qwen 3.5 2B 모델을 241MB 메모리에서 구동하여 타 런타임 대비 약 5배 적은 메모리를 사용한다.

발열 및 스로틀링: iPhone 17 Pro에서 GPU 기반 런타임(MLX, LiteRT-LM)은 지속적인 추론 시 60초 이내에 성능이 50% 이상 저하되는 스로틀링이 발생한다.

지속적인 추론 시 발생하는 런타임별 성능 저하(스로틀링) 곡선. — ChartGPU 기반 런타임은 초기 성능이 높으나 시간이 지남에 따라 급격히 하락하는 반면, ANE는 성능을 일정하게 유지함을 보여준다.

에너지 효율: Apple Foundation Models는 GPU 기반 런타임 대비 토큰당 에너지 소비가 2배 낮으며, CoreML/ANE는 낮은 전력 소비를 보이나 처리 속도가 느려 토큰당 에너지 효율은 상대적으로 낮다.

처리량과 에너지 효율 간의 트레이드오프를 보여주는 산점도. — Chart각 런타임이 성능, 에너지, 메모리 중 어떤 측면에 최적화되어 있는지 시각적으로 비교한다.

토큰당 에너지 소비량 비교 차트. — ChartApple Foundation Models가 가장 높은 에너지 효율을 보이며, GPU 기반 런타임은 처리 속도가 빨라 토큰당 에너지 소비를 상쇄함을 나타낸다.

전체 추론 과정에서의 패키지 전력 소비량 비교. — ChartCoreML/ANE가 GPU 기반 런타임 대비 절반 수준의 전력을 소비함을 확인시켜 준다.

코드 예제

bash

for run in 1 2 3; do
  yardstick run --task short-chat \
    --runtime mlx-swift \
    --model <model-id> \
    --output results/raw/---short-chat-run${run}.jsonl
done

벤치마크를 3회 반복 실행하여 안정적인 중앙값을 얻기 위한 명령어 예시

실무 Takeaway

메모리 제약이 심한 환경에서는 CoreML/ANE 런타임을, 높은 처리량이 필요한 단기 작업에는 MLX-Swift를 선택하는 것이 유리하다.
지속적인 추론 작업 시 GPU 기반 런타임의 스로틀링을 고려하여, 발열 제어가 가능한 ANE(Apple Neural Engine) 활용 방안을 검토해야 한다.

언급된 리소스

GitHubapple-silicon-llm-bench GitHub

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

대상 독자

Apple Silicon 환경에서 온디바이스 LLM을 최적화하려는 개발자

의미 / 영향

섹션별 상세

런타임별 성능 차이: MLX-Swift는 Qwen 3.5 2B 모델에서 61.2 tok/s를 기록하며 높은 처리량을 보였으나, LiteRT-LM은 Gemma 4 E2B 모델에서 더 높은 효율을 나타냈다.

메모리 효율성: CoreML/ANE는 chunked-MLKV 기술을 통해 Qwen 3.5 2B 모델을 241MB 메모리에서 구동하여 타 런타임 대비 약 5배 적은 메모리를 사용한다.

발열 및 스로틀링: iPhone 17 Pro에서 GPU 기반 런타임(MLX, LiteRT-LM)은 지속적인 추론 시 60초 이내에 성능이 50% 이상 저하되는 스로틀링이 발생한다.

코드 예제

bash

for run in 1 2 3; do
  yardstick run --task short-chat \
    --runtime mlx-swift \
    --model <model-id> \
    --output results/raw/---short-chat-run${run}.jsonl
done

벤치마크를 3회 반복 실행하여 안정적인 중앙값을 얻기 위한 명령어 예시

실무 Takeaway

메모리 제약이 심한 환경에서는 CoreML/ANE 런타임을, 높은 처리량이 필요한 단기 작업에는 MLX-Swift를 선택하는 것이 유리하다.
지속적인 추론 작업 시 GPU 기반 런타임의 스로틀링을 고려하여, 발열 제어가 가능한 ANE(Apple Neural Engine) 활용 방안을 검토해야 한다.

언급된 리소스

GitHubapple-silicon-llm-bench GitHub

Apple Silicon 기기별 LLM 추론 성능 벤치마크 분석

핵심 요약

대상 독자

의미 / 영향

섹션별 상세

코드 예제

실무 Takeaway

언급된 리소스

Apple Silicon 기기별 LLM 추론 성능 벤치마크 분석

핵심 요약

대상 독자

의미 / 영향

섹션별 상세

코드 예제

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드