Anubis: Apple Silicon을 위한 실시간 하드웨어 텔레메트리 기반 로컬 LLM 벤치마킹 도구

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 macOS 로컬 LLM 생태계는 채팅 UI나 CLI 기반 모니터링 도구로 파편화되어 있어, 하드웨어 지표와 추론 성능을 실시간으로 결합해 보여주는 도구가 부족했다. Anubis는 SwiftUI로 개발된 네이티브 macOS 앱으로, GPU/CPU 사용률, 전력 소비량, 메모리 점유율 등을 추론 속도와 함께 시각화한다. 사용자는 Ollama나 LM Studio 같은 백엔드를 연결해 모델별 성능을 벤치마킹하거나 두 모델을 나란히 비교하는 Arena 기능을 사용할 수 있다. 특히 와트당 토큰(Watts-per-token) 효율성을 측정하여 양자화 모델의 실제 전력 비용을 비교할 수 있는 것이 특징이다.

배경

macOS 15.0+ (Sequoia), Apple Silicon (M1~M5+), Ollama 또는 OpenAI 호환 API 백엔드

대상 독자

Apple Silicon 기반 맥에서 로컬 LLM을 최적화하거나 벤치마킹하려는 개발자 및 연구자

의미 / 영향

로컬 LLM 실행 시 단순히 속도뿐만 아니라 전력 효율과 하드웨어 부하를 정밀하게 측정할 수 있게 됨으로써, 엣지 디바이스에서의 LLM 최적화 기준이 더욱 구체화될 것이다.

섹션별 상세

Anubis는 Apple Silicon의 하드웨어 지표를 LLM 추론 성능과 실시간으로 결합하여 제공한다. IOReport를 통해 GPU, CPU, Neural Engine(ANE), DRAM의 전력 소비량을 와트 단위로 측정하며, 이를 통해 특정 모델이나 양자화 설정에 따른 에너지 효율성을 파악할 수 있다.

확장된 하드웨어 메트릭 상세 차트 뷰이다. — ChartGPU/CPU 사용률뿐만 아니라 GPU 전력, 시스템 전력, 와트당 토큰(Watts per Token), GPU 주파수 등 세부적인 하드웨어 데이터를 시계열 그래프로 제공한다. 하드웨어의 세밀한 동작 변화를 추적하는 기능을 설명한다.

벤치마킹 대시보드는 8개의 메트릭 카드와 7개의 실시간 차트를 통해 토큰 생성 속도(Tokens/sec), 지연 시간, 하드웨어 부하를 시각화한다. 사용자는 프롬프트 프리셋을 설정하여 반복적인 테스트를 수행할 수 있으며, 스트리밍 응답 중에도 실시간 하드웨어 오버레이를 확인할 수 있다.

Anubis의 메인 벤치마크 대시보드 화면이다. — Screenshot토큰 생성 속도(17.7 tok/s), GPU 사용률(99%), 전력 소비량(9.66W) 등 다양한 실시간 지표를 카드와 그래프 형태로 보여준다. 특정 모델(gemma:7b)의 추론 성능과 하드웨어 부하 간의 상관관계를 한눈에 파악할 수 있음을 보여준다.

Arena 기능은 두 모델의 성능을 A/B 테스트 방식으로 직접 비교할 수 있게 해준다. 순차적 또는 병렬 실행을 지원하며, 추론 결과와 함께 상세 통계를 저장하여 승자를 투표하고 기록을 관리할 수 있다.

두 모델의 성능을 비교하는 Arena 모드 화면이다. — Screenshotgemma:7b와 llama3.2:3b 모델을 나란히 배치하여 추론 결과와 성능 지표(토큰 속도, 지연 시간 등)를 직접 비교하는 모습을 보여준다. 모델 간의 품질과 성능을 동시에 평가할 수 있는 UI 구조를 확인할 수 있다.

Vault 기능을 통해 여러 백엔드(Ollama, LM Studio 등)에 흩어진 모델들을 통합 관리한다. 모델의 메타데이터를 HuggingFace나 로컬 캐시에서 자동으로 가져와 풍부한 정보를 제공하며, 모델의 풀(Pull), 삭제, 검사 기능을 앱 내에서 수행한다.

모델 관리 기능을 제공하는 Vault 화면이다. — Screenshot로컬에 설치된 다양한 모델 리스트와 각 모델의 크기, 파라미터 정보 등을 보여준다. 여러 백엔드에서 불러온 모델들을 통합적으로 관리하고 검사할 수 있는 기능을 시각화한다.

실무 Takeaway

Apple Silicon 맥에서 로컬 LLM을 운영할 때, Anubis의 전력 텔레메트리 기능을 활용하면 모델 양자화 수준에 따른 실제 에너지 효율(Watts-per-token)을 정밀하게 비교할 수 있다.
Ollama나 LM Studio 등 다양한 백엔드를 사용하는 개발자는 Anubis의 Vault 기능을 통해 파편화된 로컬 모델들을 하나의 인터페이스에서 통합 관리하고 성능을 검증할 수 있다.

언급된 리소스

GitHubAnubis GitHub Repository