핵심 요약
이 프로젝트는 iPhone, iPad, Mac 등 Apple Silicon 기기에서 로컬 LLM을 구동하는 다양한 런타임의 성능을 측정하는 중립적 벤치마크 프레임워크이다. MLX-Swift, llama.cpp, CoreML, LiteRT-LM 등 주요 런타임을 대상으로 추론 처리량(tok/s), 메모리 점유율, 에너지 효율을 비교한다. 실험 결과, GPU 기반 런타임은 초기 처리량은 높으나 발열로 인한 스로틀링이 발생하며, CoreML/ANE는 메모리 효율은 뛰어나지만 처리 속도가 상대적으로 느리다. 이 데이터는 기기별 하드웨어 제약 조건 내에서 최적의 추론 엔진을 선택하기 위한 실증적 근거를 제공한다.
대상 독자
Apple Silicon 환경에서 온디바이스 LLM을 최적화하려는 개발자
의미 / 영향
이 벤치마크는 온디바이스 AI 개발 시 단순히 처리량(tok/s)만 볼 것이 아니라, 지속적인 추론 시 발생하는 발열 스로틀링과 메모리 점유율을 종합적으로 고려해야 함을 시사한다. 특히 모바일 환경에서는 ANE 활용이 전력 및 발열 관리 측면에서 중요한 전략이 될 수 있다.
섹션별 상세





코드 예제
for run in 1 2 3; do
yardstick run --task short-chat \
--runtime mlx-swift \
--model <model-id> \
--output results/raw/---short-chat-run${run}.jsonl
done벤치마크를 3회 반복 실행하여 안정적인 중앙값을 얻기 위한 명령어 예시
실무 Takeaway
- 메모리 제약이 심한 환경에서는 CoreML/ANE 런타임을, 높은 처리량이 필요한 단기 작업에는 MLX-Swift를 선택하는 것이 유리하다.
- 지속적인 추론 작업 시 GPU 기반 런타임의 스로틀링을 고려하여, 발열 제어가 가능한 ANE(Apple Neural Engine) 활용 방안을 검토해야 한다.
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.