20,000개의 GPU를 건강하게 유지하는 방법

핵심 요약

대규모 GPU 클러스터 운영은 하드웨어의 불완전성으로 인해 높은 신뢰도를 유지하기 매우 어렵다. Modal은 AWS, GCP, Azure, OCI 등 주요 클라우드 제공업체로부터 2만 대 이상의 GPU를 공급받아 운영하며, 각 업체별 성능 및 안정성 차이를 데이터로 확인했다. 이를 해결하기 위해 자동화된 머신 이미지 빌드, 부팅 시점의 경량 점검, 그리고 운영 중 지속적인 수동 및 능동 상태 점검 체계를 구축했다. 이러한 시스템을 통해 사용자에게 높은 수준의 업타임을 제공하며, 발생한 장애에 대해서는 투명한 가시성과 신속한 지원을 보장한다.

배경

클라우드 컴퓨팅 기초, NVIDIA GPU 아키텍처, Linux 시스템 관리

대상 독자

GPU 인프라 엔지니어, MLOps 전문가, 대규모 LLM 서비스를 운영하는 개발자

의미 / 영향

GPU 하드웨어의 높은 불량률을 인정하고 이를 소프트웨어적으로 자동 감지 및 격리하는 시스템의 중요성을 시사한다. 클라우드 제공업체 선택 시 단순 가격뿐만 아니라 실제 운영 데이터 기반의 신뢰도 평가가 필수적임을 보여준다.

섹션별 상세

클라우드 제공업체 간에는 인스턴스 유형별로 상당한 신뢰도와 성능 차이가 존재한다. 특정 업체는 API 응답은 빠르지만 실제 부팅 성공률이나 발열 제어에서 문제를 보였으며, 벤치마크 결과 H100 SXM 모델이 PCIe 모델보다 행렬 연산 성능에서 약 67.5% 우수함이 확인됐다. 업체별로 예약된 메모리 용량이나 하드웨어 측면의 클럭 저하 빈도도 다르기 때문에 이를 고려한 가격 정책을 내부적으로 운영한다.

머신 이미지의 일관성과 최신성 유지는 대규모 플릿 운영의 핵심이며, Modal은 이를 위해 자동화된 CI/CD 파이프라인을 구축했다. 이미지 빌드 단계에서 NVIDIA DCGM 및 커스텀 컨테이너 테스트를 수행하여 프로덕션 배포 전 하드웨어와 소프트웨어의 호환성을 검증한다. 이러한 자동화된 이미지 관리 전략은 수동 업데이트 시 발생하던 실수를 방지하고 신규 인스턴스의 빠른 배포를 가능하게 한다.

인스턴스 부팅 시에는 스케줄링 오버헤드를 최소화하기 위해 가벼운 점검만 수행한다. 정밀 점검인 dcgmi diag는 실행에 최대 1시간이 소요되므로 오토스케일링 환경의 효율성을 저해한다. 따라서 부팅 시점에는 systemctl 쿼리와 기본적인 GPU 읽기/쓰기 테스트만 진행하고, 정밀한 하드웨어 검증은 운영 중 정기적인 점검으로 대체하여 가용성과 신뢰성 사이의 균형을 맞춘다.

상태 점검은 비침습적인 수동 점검과 독점적 권한이 필요한 능동 점검으로 나뉜다. 수동 점검은 dmesg와 DCGM 데이터를 통해 ECC 오류나 온도 위반을 실시간 모니터링하며, 능동 점검은 매주 1회 GPU-Burn이나 NCCL 테스트를 통해 부하 상황에서의 안정성을 검증한다. 문제가 발견된 호스트는 즉시 건강하지 않음으로 표시하고 작업을 드레인한 뒤 재설치하거나 폐기한다.

사용자에게는 대시보드를 통해 GPU 메모리, 사용률, 온도, 전력 소비량 등 4가지 핵심 지표를 제공하여 투명성을 높였다. 특히 컨테이너 로그에 gpu-health 이벤트를 직접 삽입하여 Xid 오류와 같은 하드웨어 이슈를 사용자가 즉시 인지하고 대응할 수 있도록 지원한다. 이러한 가시성은 복잡한 분산 환경에서 발생하는 블랙스완 이벤트를 빠르게 식별하고 해결하는 데 기여한다.

이미지 분석

Chart
시간에 따라 여러 버전의 이미지가 점진적으로 배포되고, 특정 버전에서 문제가 발생했을 때 롤백되는 과정을 시각화하여 Modal의 안정적인 이미지 관리 전략을 나타낸다.
머신 이미지 버전별 배포 현황을 보여주는 시계열 그래프이다.

Screenshot
사용자에게 제공되는 실시간 모니터링 항목을 보여주며, 하드웨어 상태를 투명하게 공개하는 Modal의 운영 방식을 증명한다.
Modal 대시보드에서 제공하는 GPU 사용률, 메모리, 온도, 전력 지표 화면이다.

Screenshot
하드웨어 장애 발생 시 시스템이 이를 감지하여 사용자 로그에 직접 정보를 제공함으로써 장애 원인 파악을 돕는 기능을 보여준다.
컨테이너 로그에 표시된 Xid 13 오류 및 GPU 상태 점검 메시지이다.

실무 Takeaway

H100 도입 시 성능 극대화를 위해 PCIe 방식보다 SXM 방식을 우선적으로 선택해야 하며, 이는 행렬 연산에서 40% 이상의 성능 차이를 만든다.
대규모 운영 시 모든 부팅 인스턴스에 정밀 진단을 돌리는 것은 비효율적이므로, 가벼운 부팅 체크와 주간 단위의 심층 체크를 병행하는 전략이 유효하다.
GPU 장애의 약 58.7%가 하드웨어 이슈인 만큼, 애플리케이션 레벨에서 CUDA 초기화 재시도 로직을 구현하여 일시적인 결함에 대비해야 한다.

언급된 리소스

문서Modal GPU Utilization Guide

문서NVIDIA Xid Errors Dictionary