llmtop: LLM 추론 클러스터를 위한 실시간 터미널 대시보드

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

LLM 추론 클러스터의 상태를 실시간으로 파악하기 위한 터미널 기반 대시보드 도구인 llmtop이 공개됐다. 이 도구는 vLLM, SGLang, NVIDIA NIM 등 주요 추론 엔진의 메트릭을 통합하여 KV 캐시 사용량, 큐 깊이, TTFT/ITL 지연 시간 등을 시각화한다. 특히 Kubernetes 환경에서 API 서버 프록시를 통해 추론 포드를 자동으로 발견하므로 별도의 포트 포워딩 없이도 클러스터 전체의 상태를 한눈에 볼 수 있다. GPU 리소스와 모델별 집계 뷰를 제공하여 복잡한 추론 인프라의 병목 현상을 빠르게 진단할 수 있도록 돕는다.

배경

Kubernetes 클러스터 운영 지식, vLLM, SGLang 등 LLM 추론 엔진에 대한 이해, Prometheus 메트릭 및 DCGM 익스포터 개념

대상 독자

LLM 추론 인프라를 운영하거나 Kubernetes 기반으로 모델을 서빙하는 MLOps 엔지니어 및 개발자

의미 / 영향

이 도구는 복잡한 LLM 추론 클러스터의 가시성을 획기적으로 높여준다. 특히 KV 캐시와 같은 LLM 특화 지표를 실시간으로 제공함으로써 인프라 비용 최적화와 서비스 안정성 확보에 기여할 것으로 보인다.

섹션별 상세

llmtop은 vLLM, SGLang, TensorRT-LLM 등 10개 이상의 다양한 LLM 추론 백엔드를 지원하며 각 엔진의 고유한 메트릭 접두사를 자동으로 감지한다.

bash

brew install InfraWhisperer/tap/llmtop
# 또는
go install github.com/InfraWhisperer/llmtop/cmd/llmtop@latest

Homebrew 또는 Go를 이용한 llmtop 설치 방법

llmtop 터미널 대시보드의 실시간 작동 데모 — Screenshot터미널 환경에서 여러 모델 워커의 KV 캐시, 큐 상태, 지연 시간 지표가 실시간으로 업데이트되는 모습을 보여준다. 모델별 그룹화 기능과 GPU 상태 뷰가 어떻게 시각화되는지 직관적으로 확인할 수 있다.

실시간 모니터링 지표에는 KV 캐시 점유율, 요청 큐 깊이, 첫 번째 토큰 생성 시간(TTFT), 토큰 간 지연 시간(ITL), 그리고 전체 토큰 처리량이 포함된다.

Kubernetes 네이티브 설계를 통해 API 서버 프록시를 사용하여 추론 포드를 자동 검색하며, 특정 네임스페이스 지정이나 직접 엔드포인트 연결도 지원한다.

bash

# Kubernetes — API 서버 프록시를 통한 자동 검색
llmtop
# 특정 네임스페이스 지정
llmtop -n inference
# 직접 엔드포인트 연결
llmtop -e http://10.0.0.1:8000 -e http://10.0.0.2:8000

Kubernetes 환경 및 직접 엔드포인트 지정을 통한 실행 예시

GPU 리소스 뷰를 통해 DCGM 익스포터 기반의 GPU 사용률, VRAM 점유, 온도, 전력 소비량을 실시간으로 확인할 수 있다.

모델 그룹화 기능을 제공하여 여러 워커에 분산된 동일 모델의 통계를 합산해서 보여주며, 상세 뷰를 통해 개별 노드의 상태로 드릴다운이 가능하다.

실무 Takeaway

다양한 추론 엔진이 혼재된 클러스터에서 llmtop을 사용하면 통합된 인터페이스로 KV 캐시 포화 상태나 지연 시간 병목을 즉시 파악할 수 있다.
Kubernetes 환경의 개발자는 별도의 복잡한 프로메테우스 설정 없이도 llmtop 명령 하나로 클러스터 내 모든 추론 포드의 상태를 실시간으로 모니터링할 수 있다.
snapshot 모드를 활용하여 현재 클러스터의 상태를 JSON 형태로 추출하고 자동화된 보고나 분석 워크플로에 통합할 수 있다.

언급된 리소스

GitHubllmtop GitHub Repository

문서llmtop Design Documentation