dcgm
엔비디아 데이터 센터 GPU를 관리하고 모니터링하기 위한 도구 모음이다. 상태 진단, 성능 프로파일링, 정책 관리 기능을 제공하여 대규모 클러스터의 안정적인 운영을 돕는다.
학습 중단시키는 '좀비 GPU' 잡는다, Meta의 새로운 모니터링 도구 GCM
2만 대 GPU 관리의 비밀: 클라우드별 성능 격차와 장애 대응 전략