slurm
HPC 환경에서 널리 사용되는 오픈소스 클러스터 관리 및 작업 스케줄링 시스템이다. 수천 개의 노드에 작업을 배포하고 자원을 할당하는 역할을 수행하며, 연구 및 공학 워크플로에 깊이 통합되어 있다.
학습 중단시키는 '좀비 GPU' 잡는다, Meta의 새로운 모니터링 도구 GCM
단일 GPU에서 1,000인용 클러스터까지, ML 인프라 구축의 모든 것
단일 워크스테이션부터 대규모 클러스터까지 ML 인프라 구축의 모든 것
연구자는 Slurm, 인프라는 K8s, Character.ai가 GPU 클러스터 난제를 해결한 방법
SLURM의 편리함과 Kubernetes의 안정성을 하나로, Slonk 아키텍처 공개