ClearML을 활용한 Kubernetes 환경에서의 Slurm 워크로드 실행 가이드

핵심 요약

전통적인 HPC 환경의 Slurm은 고정된 자원 관리와 컨테이너 미지원으로 현대적 AI 워크로드 처리에 한계가 있다. 이를 해결하기 위해 많은 조직이 Kubernetes를 병행 도입하지만, 두 시스템의 분리 운영은 관리 복잡성과 자원 낭비를 초래한다. ClearML은 Slurm을 Kubernetes 포드(Pod) 내에서 실행하는 'Slurm over Kubernetes' 방식을 통해 이 문제를 해결한다. 사용자는 익숙한 Slurm 인터페이스를 유지하면서도 Kubernetes의 자동 확장(Autoscaling)과 컨테이너 네이티브 환경의 이점을 누릴 수 있다.

배경

Kubernetes 기본 아키텍처 및 포드(Pod) 개념, Slurm 작업 스케줄러 및 sbatch/srun 명령어 사용법, 컨테이너화된 AI 워크로드에 대한 이해

대상 독자

HPC 환경에서 AI 연구를 수행하거나 Kubernetes로 인프라를 통합하려는 MLOps 엔지니어 및 인프라 관리자

의미 / 영향

이 기술은 전통적인 슈퍼컴퓨팅 환경과 현대적인 클라우드 네이티브 환경 사이의 기술적 격차를 해소한다. 기업은 기존의 Slurm 기반 자산과 지식을 보호하면서도 Kubernetes의 유연성과 확장성을 즉시 도입할 수 있는 실질적인 경로를 확보하게 된다.

섹션별 상세

전통적인 Slurm 클러스터는 정적으로 정의된 환경에 최적화되어 있어 AI 워크로드의 급격한 수요 변화에 대응하는 자동 확장 기능이 부족하다. AI 사용 패턴은 유휴 기간과 대규모 수요 급증 사이를 오가는데, Slurm은 고정된 노드 집합을 예상하므로 자원 낭비나 수동 재설정의 번거로움이 발생한다. 또한 Docker와 같은 컨테이너를 기본적으로 지원하지 않아 별도의 래퍼나 도구를 추가해야 하는 운영상의 어려움이 존재한다.

Kubernetes를 Slurm과 병행 운영하는 방식은 인프라 스택이 이원화되어 관리 복잡성을 가중시킨다. 서로 다른 스케줄러, 정책, 보안 모델을 각각 운영해야 하며, 한쪽 클러스터의 자원이 남더라도 다른 쪽에서 이를 활용하기 어려운 구조적 한계가 있다. 이는 전체 인프라의 가동률을 떨어뜨리고 플랫폼 엔지니어링 팀에 과도한 운영 부담을 지운다.

ClearML의 Slurm over Kubernetes는 Slurm 로그인 노드와 워커 노드를 Kubernetes 포드로 생성하여 필요할 때만 클러스터를 구축하고 사용 후 해제할 수 있게 한다. 사용자는 기존의 sbatch, srun 스크립트와 MPI 지원 등 HPC 중심의 워크플로우를 그대로 유지할 수 있다. 동시에 Kubernetes의 바이너리 패킹(Bin-packing)과 자동 확장 기능을 통해 인프라 효율성을 극대화하는 것이 가능하다.

ClearML 플랫폼은 Kubernetes와 Slurm 워크로드 모두에 대해 단일 가시성과 제어 평면을 제공한다. 관리자는 우선순위, GPU 유형, 비용 프로필에 따라 작업을 적절한 클러스터로 라우팅하는 교차 클러스터 스케줄링을 설정할 수 있다. 또한 팀별 쿼터 설정, RBAC 기반 보안, 상세한 작업 및 하드웨어 메트릭 추적 기능을 통해 멀티 테넌트 환경에서의 운영 효율을 높인다.

실무 Takeaway

Slurm의 HPC 워크플로우를 유지하면서 Kubernetes의 오토스케일링을 적용해 인프라 비용을 최적화한다.
ClearML의 통합 인터페이스를 통해 Slurm과 Kubernetes에 흩어진 GPU 자원을 단일 풀로 관리하고 가동률을 높인다.
온프레미스 자원 부족 시 클라우드 Kubernetes로 워크로드를 자동 전이시키는 하이브리드 전략을 수립한다.

언급된 리소스

문서ClearML Slurm Integration Blog Post