MetalRT: Apple Silicon을 위한 가장 빠른 LLM 디코딩 엔진 벤치마크 결과

핵심 요약

Apple Silicon 환경에서 LLM 추론 효율을 극한으로 끌어올리기 위해 개발된 MetalRT 엔진의 벤치마크 결과가 발표되었습니다. M4 Max 칩셋을 탑재한 단일 기기에서 Qwen3-0.6B 모델 기준 초당 658토큰이라는 압도적인 디코딩 속도를 달성하며 기존 프레임워크들의 한계를 넘어섰습니다. 이 엔진은 추상화 계층을 최소화하고 하드웨어에 직접 접근하는 방식을 채택하여 llama.cpp 및 Apple의 공식 MLX 프레임워크보다 뛰어난 성능을 입증했습니다. 특히 지연 시간이 중요한 실시간 챗봇, 에이전트 워크플로우, 온디바이스 AI 애플리케이션에 최적화된 솔루션을 제공합니다.

배경

Apple Silicon(M-시리즈) 하드웨어 아키텍처에 대한 기본 지식, LLM 추론 엔진(llama.cpp, MLX 등) 및 양자화 개념 이해

대상 독자

Apple Silicon 환경에서 고성능 온디바이스 LLM 서비스를 개발하거나 최적화하려는 엔지니어

의미 / 영향

Apple Silicon의 하드웨어 잠재력을 극한으로 끌어올리는 서드파티 엔진의 등장은 온디바이스 AI 생태계의 기술적 상한선을 높일 것입니다. 이는 클라우드 의존도를 낮추고 개인정보를 보호하면서도 고성능을 유지해야 하는 로컬 AI 애플리케이션 시장의 성장을 가속화하는 계기가 될 것입니다.

섹션별 상세

MetalRT는 Apple Silicon의 성능을 최대한 활용하기 위해 모든 추상화 계층을 제거하고 하드웨어에 직접 접근하도록 설계된 전용 디코딩 엔진입니다. M4 Max 하드웨어에서 Qwen3-0.6B 모델을 통해 초당 658토큰의 디코딩 속도를 기록했으며, 이는 현재 공개된 Apple Silicon용 엔진 중 가장 빠른 수준에 해당합니다.

주요 추론 엔진들과의 비교 벤치마크에서 MetalRT는 독보적인 우위를 점했습니다. 널리 사용되는 llama.cpp 대비 평균 1.67배, Apple의 공식 프레임워크인 mlx-lm 대비 최대 1.19배 빠른 속도를 보여주었습니다. 특히 mlx-lm과는 동일한 4비트 양자화 모델 파일을 사용했음에도 불구하고 엔진 최적화만으로 유의미한 성능 차이를 만들어냈다는 점이 기술적 핵심입니다.

단순한 처리량 향상뿐만 아니라 응답성 지표인 첫 토큰 생성 시간(TTFT)에서도 탁월한 성능을 보입니다. Qwen3-0.6B 모델 기준 6.6ms라는 매우 짧은 TTFT를 기록하여 사용자가 체감하는 지연 시간을 최소화했습니다. 이러한 고속 디코딩 능력은 구조화된 데이터 생성이나 다단계 에이전트 워크플로우처럼 LLM 호출이 연속적으로 발생하는 환경에서 누적 지연 시간을 획기적으로 줄여줍니다.