핵심 요약
GPU 저이용률 문제를 해결하기 위해 ClearML은 AMD Instinct MI300X GPU의 하드웨어 파티셔닝 기능을 자사 플랫폼에 통합했다. MI300X의 칩렛 아키텍처를 활용하여 연산(CPX)과 메모리(NPS) 측면에서 GPU를 분할함으로써, 단일 물리 GPU에서 최대 8개의 독립적인 워크로드를 동시에 실행할 수 있다. ClearML 에이전트는 이러한 파티션을 동적으로 할당하고 오케스트레이션하여 기업이 고가의 GPU 자원을 극대화하고 멀티 테넌시 환경을 효율적으로 구축하도록 지원한다.
배경
AMD Instinct MI300 시리즈 하드웨어 아키텍처 지식, ROCm 스택 및 컨테이너 툴킷 운영 이해, ClearML 에이전트 및 큐 시스템 기본 지식
대상 독자
AI 인프라 엔지니어, MLOps 전문가, GPU 자원 최적화가 필요한 기업 IT 리더
의미 / 영향
고가의 AMD GPU 자원을 세분화하여 사용할 수 있게 됨으로써, 대규모 학습뿐만 아니라 소규모 파인튜닝 및 추론 워크로드의 경제성이 크게 향상될 것이다. 이는 기업이 동일한 하드웨어 예산으로 더 많은 실험과 배포를 수행할 수 있음을 의미한다.
섹션별 상세
이미지 분석

단일 장치로 인식되는 SPX 모드와 8개의 XCD 유닛이 각각 독립적인 파티션으로 분할되는 CPX 모드의 구조적 차이를 보여준다. 각 파티션이 HBM 메모리와 어떻게 연결되는지 시각화하여 연산 격리 원리를 설명한다.
MI300X의 SPX 모드와 CPX 모드 비교 다이어그램

전체 메모리를 하나의 풀로 사용하는 NPS1과 4개의 NUMA 도메인으로 나누는 NPS4의 차이를 나타낸다. NPS4 모드에서 연산 유닛과 메모리 스택 간의 물리적 인접성이 어떻게 성능 향상으로 이어지는지 보여준다.
NPS1과 NPS4 메모리 파티셔닝 모드 비교

8개의 MI300X GPU가 각각 8개의 CPX 파티션으로 나뉘어 총 64개의 논리적 디바이스로 인식되는 실제 시스템 상태를 증명한다. 각 파티션의 온도, 전력, 메모리 모드(NPS4, CPX)를 확인할 수 있다.
64개의 GPU 파티션이 활성화된 ROCm-SMI 로그 화면

ClearML을 통해 할당된 격리된 파티션 내에서 amd-smi 명령어를 실행한 결과이다. 전체 GPU가 아닌 할당된 단일 파티션 자원만 사용자에게 노출됨을 보여주며 멀티 테넌시 격리 성능을 입증한다.
단일 GPU 파티션 내에서 실행되는 Jupyter Notebook 환경
실무 Takeaway
- AMD MI300X의 CPX 모드를 활용하면 단일 GPU에서 최대 8개의 워크로드를 독립적으로 실행하여 자원 효율을 8배 높일 수 있다.
- NPS4 메모리 파티셔닝을 적용하여 연산 유닛과 메모리 간의 물리적 거리를 최적화하고 데이터 처리 지연 시간을 단축해야 한다.
- ClearML 에이전트의 동적 할당 기능을 사용하면 복잡한 CLI 명령 없이도 파티셔닝된 GPU 자원을 자동화된 워크플로에 통합 가능하다.
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료