Amazon SageMaker의 상세 관측성 메트릭 및 CloudWatch Insights 대시보드 활용

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

Amazon SageMaker는 LLM 추론 엔드포인트의 성능, 용량, 신뢰성을 정밀하게 모니터링하기 위해 100개 이상의 상세 메트릭을 새롭게 제공한다. 이 메트릭은 OpenTelemetry 표준을 따르며, 내장된 CloudWatch Insights 대시보드에서 시각화하거나 PromQL을 통해 Grafana 등 외부 도구로 연동할 수 있다. 사용자는 TTFT, KV 캐시 압력, AZ별 트래픽 분포 등을 실시간으로 파악하여 병목 구간을 즉시 진단하고 최적화할 수 있다. 이 기능은 단일 모델 엔드포인트(SME)와 추론 컴포넌트(IC) 엔드포인트를 모두 지원하여 프로덕션 환경의 운영 효율성을 높인다.

배경

AWS 계정 및 SageMaker 실시간 추론 엔드포인트, IAM 권한 (sagemaker:CreateEndpointConfig, sagemaker:UpdateEndpoint, cloudwatch:GetMetricData), vLLM 또는 SGLang 컨테이너 프레임워크 (토큰 수준 메트릭용)

대상 독자

프로덕션 환경에서 LLM을 운영하는 MLOps 엔지니어, SRE, ML 플랫폼 개발자

의미 / 영향

이 기능은 LLM 추론의 블랙박스 문제를 해결하여 운영 복잡성을 크게 낮춘다. 특히 복잡한 멀티 모델 엔드포인트 환경에서 성능 병목을 즉각적으로 파악할 수 있게 함으로써 서비스 가용성과 비용 효율성을 동시에 확보할 수 있다.

섹션별 상세

기존의 집계 메트릭만으로는 GPU 메모리 압력이나 KV 캐시 병목 등 LLM 특화 문제를 진단하기 어려웠다. SageMaker는 100개 이상의 상세 메트릭을 통해 GPU 상태, 토큰 수준 지연 시간, 엔진 압력 등을 세밀하게 추적한다.

python

import boto3
sm = boto3.client("sagemaker")

# Create endpoint config — observability turned on by default
response = sm.create_endpoint_config(
    EndpointConfigName="my-llm-config",
    ProductionVariants=[{
        "VariantName": "primary",
        "InstanceType": "ml.g6.4xlarge",
        "InitialInstanceCount": 2,
        "ManagedInstanceScaling": {
            "Status": "ENABLED",
            "MinInstanceCount": 2,
            "MaxInstanceCount": 8
        }
    }],
    ExecutionRoleArn="arn:aws:iam::123456789012:role/SageMakerExecutionRole"
)

SageMaker 엔드포인트 설정 시 상세 관측성(detailed observability)을 활성화하는 예시 코드입니다.

SageMaker 추론 엔드포인트에서 CloudWatch로 메트릭이 전송되는 아키텍처 다이어그램. — Diagram엔드포인트가 OpenTelemetry 메트릭을 CloudWatch로 보내고, SageMaker Insights 대시보드가 이를 시각화하는 전체 흐름을 보여준다.

CloudWatch 내 SageMaker Insights 대시보드는 성능, 용량, 신뢰성 탭으로 구성되어 fleet 전체부터 개별 추론 컴포넌트까지 계층적 모니터링을 지원한다. 성능 탭에서는 TTFT와 ITL을 통해 스트리밍 응답 품질을 관리하고, 엔진 압력 패널로 KV 캐시 사용량을 실시간 확인한다.

CloudWatch 내 SageMaker Insights 대시보드의 성능, 용량, 신뢰성 탭 화면. — Screenshot대시보드가 제공하는 세 가지 핵심 모니터링 영역을 시각적으로 보여주며, 운영자가 fleet 상태를 어떻게 파악하는지 설명한다.

인스턴스별 성능 메트릭을 보여주는 허니콤(육각형) 시각화. — Chart각 인스턴스의 상태를 색상으로 구분하여 한눈에 fleet의 건강 상태를 파악하고, 특정 인스턴스를 드릴다운할 수 있음을 보여준다.

KV 캐시 사용량과 요청 수를 보여주는 엔진 및 요청 압력 패널. — Chart추론 엔진의 부하 상태를 시계열로 보여주며, KV 캐시 포화도를 통해 성능 병목을 조기에 감지하는 방법을 설명한다.

용량 및 신뢰성 탭은 GPU 메모리 및 디스크 사용량 추세를 시각화하여 리소스 부족을 사전에 방지하고, AZ별 인스턴스 분포를 통해 고가용성 상태를 점검한다. 콜드 스타트 분석 기능은 모델 다운로드, GPU 로드, 컨테이너 시작 단계를 분해하여 스케일링 지연 원인을 파악하게 돕는다.

콜드 스타트 이벤트를 단계별로 분해한 스택 바 차트. — Chart모델 다운로드, GPU 로드, 컨테이너 시작 등 각 단계별 소요 시간을 시각화하여 스케일링 지연의 근본 원인을 파악하는 방법을 보여준다.

PromQL 호환 엔드포인트를 제공하여 Grafana나 Datadog 등 기존 관측 도구와 즉시 연동할 수 있다. 사용자는 제공된 대시보드 템플릿을 가져와 커스텀 쿼리를 작성함으로써 기존 모니터링 파이프라인 내에서 SageMaker 메트릭을 통합 관리할 수 있다.

실무 Takeaway

LLM 엔드포인트의 TTFT가 급증할 때, SageMaker Insights 대시보드의 엔진 압력 패널을 확인하여 KV 캐시 부족 여부를 즉시 진단한다.
콜드 스타트 지연이 발생하면 'Cold start anatomy' 차트를 통해 모델 다운로드, GPU 로드, 컨테이너 시작 중 어느 단계가 병목인지 파악하고 최적화한다.
PromQL 엔드포인트를 활용해 Grafana와 같은 외부 도구로 SageMaker 메트릭을 통합하면, 별도의 인프라 구축 없이도 일관된 모니터링 환경을 유지할 수 있다.

언급된 리소스

문서Deploy models for real-time inference

문서Introducing OpenTelemetry PromQL support in Amazon CloudWatch

튜토리얼Getting started with detailed observability