Amazon SageMaker HyperPod에서 추론을 실행하기 위한 모범 사례

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Amazon SageMaker HyperPod는 대규모 파운데이션 모델의 추론 워크로드를 효율적으로 관리하기 위한 통합 플랫폼을 제공합니다. 기존 인프라의 복잡한 설정과 예측 불가능한 트래픽 문제를 해결하기 위해 KEDA와 Karpenter를 결합한 이중 레이어 자동 확장 아키텍처를 도입했습니다. 이를 통해 트래픽이 없을 때는 자원을 0으로 줄여 비용을 최적화하며, 계층형 KV 캐시와 지능형 라우팅으로 추론 지연 시간을 최대 40%까지 단축합니다. 결과적으로 사용자는 성능 병목 현상을 해소하고 전체 소유 비용(TCO)을 최대 40% 절감하면서 모델 배포 속도를 높일 수 있습니다.

배경

Amazon EKS 및 쿠버네티스 기본 지식, LLM 추론 및 KV 캐싱 개념 이해, AWS IAM 및 SageMaker 콘솔 사용 경험

대상 독자

프로덕션 환경에서 대규모 LLM을 배포하고 비용 및 성능 최적화가 필요한 AI 인프라 엔지니어 및 MLOps 전문가

의미 / 영향

이 기술은 고비용의 GPU 인프라 운영 부담을 획기적으로 낮추어 기업들이 생성형 AI 서비스를 더 경제적으로 확장할 수 있게 합니다. 특히 쿠버네티스 기반의 유연성과 AWS의 관리형 서비스가 결합되어 복잡한 인프라 관리 없이도 엔터프라이즈급 안정성을 확보할 수 있다는 점이 중요합니다.

섹션별 상세

복잡한 인프라 설정 없이 Amazon EKS 오케스트레이션을 통해 HyperPod 클러스터를 신속하게 구축할 수 있습니다. 콘솔에서 퀵 설정 또는 커스텀 설정을 선택하여 필요한 쿠버네티스 컨트롤러와 애드온을 한 번에 활성화할 수 있습니다. 이를 통해 대규모 분산 학습 및 추론을 위한 탄력적인 클러스터 환경이 즉시 구성됩니다. 인프라 관리 부담을 줄이고 모델 배포에 집중할 수 있는 환경을 제공합니다.

Amazon EKS 오케스트레이터를 사용하는 SageMaker HyperPod의 고수준 아키텍처 다이어그램 — Diagram데이터 과학자와 앱 사용자가 EKS 제어 평면을 통해 모델을 배포하고 ALB를 통해 추론 요청을 보내는 흐름을 보여줍니다. 클러스터 내부의 P5, G6 등 다양한 GPU 인스턴스 구성과 FSx for Lustre, Prometheus, CloudWatch 등 연동되는 AWS 서비스 생태계를 한눈에 파악할 수 있습니다.

KEDA와 Karpenter를 결합하여 파드와 노드 수준에서 모두 작동하는 지능형 자동 확장 아키텍처를 구현했습니다. KEDA는 요청 큐 길이나 지연 시간 지표에 따라 파드 수를 조절하며, Karpenter는 대기 중인 파드 요구 사항에 맞춰 컴퓨팅 노드를 실시간으로 프로비저닝합니다. 트래픽이 없는 유휴 시간에는 모든 워커 노드를 제거하는 'Scale-to-Zero'가 가능하여 인프라 비용을 극적으로 낮춥니다. 실제 수요에 맞춰 자원을 유연하게 할당하므로 과잉 프로비저닝 문제를 해결합니다.

bash

aws sagemaker update-cluster --cluster-name 'ml-cluster' --auto-scaling '{ "Mode": "Enable", "AutoScalerType": "Karpenter" }' --cluster-role 'arn:aws:iam::XXXXXXXXXXXX:role/sagemaker-ml-cluster-e3cb1e31ExecRole' --region us-east-1

SageMaker HyperPod 클러스터에서 Karpenter 자동 확장을 활성화하는 명령

Karpenter를 이용한 노드 수준의 자동 확장 메커니즘 다이어그램 — Diagram새로운 배포로 인해 대기 중인 파드(Pending pods)가 발생하면 Karpenter가 이를 감지하여 EC2 풀에서 적절한 노드를 프로비저닝하는 과정을 설명합니다. 이는 HyperPod가 어떻게 컴퓨팅 자원을 동적으로 확장하여 수요를 충족하는지 시각적으로 보여줍니다.

관리형 계층형 KV 캐시와 지능형 라우팅을 통해 LLM 추론 성능을 최적화합니다. 동일한 프롬프트 접두사를 가진 요청을 기존 캐시가 있는 인스턴스로 유도하여 중복 계산을 방지하고 GPU 메모리 압박을 완화합니다. 내부 테스트 결과 지연 시간은 최대 40% 감소하고 처리량은 25% 향상되는 성과를 거두었습니다. 특히 긴 컨텍스트나 다회차 대화가 필요한 서비스에서 성능 개선 효과가 두드러집니다.

지능형 라우팅과 계층형 KV 캐시(L1, L2)를 이용한 추론 요청 처리 흐름도 — Diagram지능형 라우터가 요청을 분석하여 적절한 인스턴스로 분배하고, 각 인스턴스가 CPU 기반의 L1 캐시와 관리형 계층형 KV 캐시인 L2를 활용하는 구조를 보여줍니다. 이를 통해 중복된 프롬프트 처리를 피하고 추론 속도를 높이는 원리를 설명합니다.

NVIDIA MIG 기술을 지원하여 단일 GPU 자원을 여러 모델이 격리된 상태로 공유할 수 있게 합니다. 작은 모델을 대형 GPU에 배포할 때 발생하는 자원 낭비를 방지하기 위해 GPU를 분할하여 활용도를 극대화합니다. YAML 설정을 통해 특정 MIG 프로필을 지정하거나 검증 로직을 제어할 수 있어 유연한 배포가 가능합니다. 이는 고가의 GPU 자원을 효율적으로 분배하여 전체적인 운영 비용을 낮추는 데 기여합니다.

yaml

apiVersion: inference.sagemaker.aws.amazon.com/v1
kind: JumpStartModel
metadata:
  name: deepseek
spec:
  server:
    acceleratorPartitionType: mig-7g.40gb
    instanceType: ml.p4d.24xlarge

MIG 프로필을 사용하여 DeepSeek 모델을 배포하는 설정 예시

Grafana 기반의 내장 대시보드를 통해 추론 지표에 대한 원클릭 관측성을 제공합니다. 유입 요청률, 지연 시간, 첫 번째 바이트 출력 시간(TTFB) 등 핵심 성능 지표를 실시간으로 모니터링할 수 있습니다. 또한 SageMaker Spaces 애드온을 통해 JupyterLab이나 VS Code 같은 개발 환경을 클러스터 내에서 직접 실행할 수 있습니다. 개발자는 동일한 인프라에서 모델 개발, 학습, 추론을 통합적으로 수행하며 GPU 투자 가치를 극대화합니다.

Grafana에서 제공되는 HyperPod 추론 모니터링 대시보드 스크린샷 — Screenshot활성 배포 목록, 요청률, 성공률, 에러 코드별 실패 횟수 등 실시간 성능 지표를 시각화한 화면입니다. 운영자가 배포된 모델의 상태를 직관적으로 파악하고 문제 발생 시 빠르게 대응할 수 있는 환경을 제공함을 증명합니다.

실무 Takeaway

트래픽 변동이 심한 서비스라면 KEDA와 Karpenter를 활성화하여 유휴 시간 비용을 0으로 만들고 수요에 따라 즉각 확장하는 구조를 갖추어야 한다.
긴 문맥을 다루는 RAG 시스템이나 챗봇 서비스에는 계층형 KV 캐시와 지능형 라우팅을 적용하여 지연 시간을 최대 40%까지 줄일 수 있다.
상대적으로 크기가 작은 모델들을 운영할 때는 NVIDIA MIG 프로필 설정을 통해 하나의 GPU를 분할 사용함으로써 하드웨어 효율성을 높여야 한다.

언급된 리소스

문서Managed Tiered KV Cache and Intelligent Routing for Amazon SageMaker HyperPod

문서HyperPod now supports Multi-Instance GPU to maximize GPU utilization

Amazon SageMaker HyperPod에서 추론을 실행하기 위한 모범 사례

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

Amazon SageMaker HyperPod에서 추론을 실행하기 위한 모범 사례

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드