nvml
NVIDIA GPU 장치를 모니터링하고 관리하기 위한 C 기반 라이브러리이다. 온도, 팬 속도, 메모리 사용량 등 하드웨어 상태 정보를 제공하며 클러스터 관리 도구의 기초가 된다.
지표는 정상인데 학습은 중단? GPU 클러스터 유령 장애 해결법