AWS Deep Learning AMI 및 컨테이너의 SOCI 스냅샷터를 활용한 컨테이너 콜드 스타트 시간 단축

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

AI/ML 워크로드 규모가 커짐에 따라 대용량 컨테이너 이미지의 다운로드 및 압축 해제 시간이 프로덕션 환경의 병목 현상으로 작용한다. SOCI(Seekable OCI) 스냅샷터는 컨테이너 이미지의 레이어 기반 인덱싱을 통해 필요한 파일만 즉시 로드하거나 병렬로 다운로드하여 시작 시간을 단축한다. AWS Deep Learning AMI와 컨테이너는 이제 SOCI를 기본 지원하며, 테스트 결과 지연 로딩 모드에서 시작 시간이 6분 59초에서 21초로 20배 개선됐다. 이 기술은 대규모 GPU 클러스터 확장이나 추론 엔드포인트 배포 시 인프라 효율성과 운영 속도를 높인다.

배경

AWS Deep Learning AMI 또는 Deep Learning Containers, SOCI 인덱스가 포함된 컨테이너 이미지, nerdctl 또는 SOCI 스냅샷터 지원 런타임

대상 독자

프로덕션 환경에서 대규모 AI/ML 컨테이너를 배포하고 운영하는 엔지니어

의미 / 영향

SOCI 스냅샷터의 도입은 대규모 AI 인프라의 운영 효율성을 높이고 비용을 절감한다. 특히 컨테이너 시작 지연을 최소화하여 자동 확장(Auto-scaling) 이벤트 발생 시 서비스 가용성을 즉각적으로 확보할 수 있게 한다.

섹션별 상세

대규모 AI 모델을 포함한 컨테이너 이미지는 수십 GB에 달해 전체 다운로드 및 압축 해제에 수분이 소요되며, 이는 GPU 유휴 시간 증가와 확장성 저하를 유발한다.

SOCI 스냅샷터는 컨테이너 이미지 내 파일 위치를 매핑하는 인덱스 시스템을 사용하여, 전체 이미지를 받기 전 필요한 데이터만 우선 로드하거나 여러 청크를 동시에 다운로드한다.

Docker 순차 풀, SOCI 병렬 풀, SOCI 지연 로딩 방식의 컨테이너 시작 시간 비교 차트이다. — Chart이 이미지는 세 가지 컨테이너 풀링 메커니즘의 작동 방식과 시작 시간 차이를 시각적으로 보여준다. 지연 로딩이 가장 빠른 시작 시간을 제공하며, 병렬 풀은 전체 이미지 로드 시 효율적임을 나타낸다.

DLAMI 및 Deep Learning Containers에서 SOCI 스냅샷터가 통합된 솔루션 아키텍처 다이어그램이다. — DiagramSOCI 스냅샷터가 EC2 인스턴스, Deep Learning AMI, 그리고 컨테이너 계층 사이에서 어떻게 통합되어 작동하는지 구조를 설명한다. Fuse, SOCI CLI, 컨테이너 클라이언트가 핵심 구성 요소임을 보여준다.

vLLM 컨테이너를 대상으로 한 테스트에서 지연 로딩 모드 적용 시 컨테이너 시작 시간이 6분 59초에서 21.1초로 단축되어 약 20배의 성능 향상을 기록했다.

bash

time docker run \
  --gpus all \
  -d \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  --env "HUGGING_FACE_HUB_TOKEN=$HUGGING_FACE_HUB_TOKEN" \
  -p 8000:8000 \
  --ipc=host \
  public.ecr.aws/deep-learning-containers/vllm:0.19.0-gpu-py312-ec2-soci \
  --model mistralai/Mistral-7B-v0.1

표준 Docker pull을 사용하여 컨테이너를 실행하는 명령어 예시

bash

time sudo nerdctl run \
  --snapshotter soci \
  --gpus all \
  -d \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  --env "HUGGING_FACE_HUB_TOKEN=$HUGGING_FACE_HUB_TOKEN" \
  -p 8000:8000 \
  --ipc=host \
  public.ecr.aws/deep-learning-containers/vllm:0.19.0-gpu-py312-ec2-soci \
  --model mistralai/Mistral-7B-v0.1

SOCI 스냅샷터를 사용하여 지연 로딩 모드로 컨테이너를 실행하는 명령어 예시

병렬 풀 모드는 전체 이미지를 다운로드해야 하는 I/O 집약적 워크로드에 적합하며, 테스트 결과 기존 4분 44초에서 2분 12초로 2.2배 빠른 이미지 풀 속도를 보였다.

text

[pull_modes.parallel_pull_unpack]
enable = true
max_concurrent_downloads = -1
max_concurrent_downloads_per_image = 20
concurrent_download_chunk_size = "16mb"
max_concurrent_unpacks = -1
max_concurrent_unpacks_per_image = 10
discard_unpacked_layers = true

SOCI 스냅샷터의 병렬 풀 모드를 활성화하기 위한 설정 파일 예시

AWS Deep Learning 컨테이너는 SOCI 인덱스가 사전 생성되어 제공되며, 사용자 정의 이미지는 SOCI 인덱스를 생성하여 등록해야 지연 로딩 기능을 활용할 수 있다.

실무 Takeaway

지연 로딩 모드는 컨테이너 즉시 시작이 필요한 추론 서비스에 적용하여 콜드 스타트 시간을 20배 이상 단축할 수 있다.
병렬 풀 모드는 전체 이미지 데이터가 필요한 학습 작업이나 I/O 집약적 워크로드에서 이미지 다운로드 시간을 2배 이상 개선한다.
SOCI 인덱스가 없는 이미지는 표준 풀 방식으로 동작하므로, 성능 최적화를 위해 컨테이너 이미지에 SOCI 인덱스를 생성하고 등록해야 한다.

언급된 리소스

문서SOCI Index DLAMI

GitHubDeep Learning Container Repository

time docker run \ --gpus all \ -d \ -v ~/.cache/huggingface:/root/.cache/huggingface \ --env "HUGGING_FACE_HUB_TOKEN=$HUGGING_FACE_HUB_TOKEN" \ -p 8000:8000 \ --ipc=host \ public.ecr.aws/deep-learning-containers/vllm:0.19.0-gpu-py312-ec2-soci \ --model mistralai/Mistral-7B-v0.1

time sudo nerdctl run \ --snapshotter soci \ --gpus all \ -d \ -v ~/.cache/huggingface:/root/.cache/huggingface \ --env "HUGGING_FACE_HUB_TOKEN=$HUGGING_FACE_HUB_TOKEN" \ -p 8000:8000 \ --ipc=host \ public.ecr.aws/deep-learning-containers/vllm:0.19.0-gpu-py312-ec2-soci \ --model mistralai/Mistral-7B-v0.1

[pull_modes.parallel_pull_unpack] enable = true max_concurrent_downloads = -1 max_concurrent_downloads_per_image = 20 concurrent_download_chunk_size = "16mb" max_concurrent_unpacks = -1 max_concurrent_unpacks_per_image = 10 discard_unpacked_layers = true

AWS Deep Learning AMI 및 컨테이너의 SOCI 스냅샷터를 활용한 컨테이너 콜드 스타트 시간 단축

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

AWS Deep Learning AMI 및 컨테이너의 SOCI 스냅샷터를 활용한 컨테이너 콜드 스타트 시간 단축

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드