ClearML의 AMD Instinct GPU 분할 통합: 아키텍처, 오케스트레이션 및 리소스 관리

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

GPU 자원 효율성 극대화는 기업 AI 인프라 확장의 핵심 과제입니다. ClearML은 AMD Instinct MI300X GPU의 하드웨어 분할 기능을 통합하여 이를 해결했습니다. MI300X의 칩렛 아키텍처를 활용해 연산(CPX)과 메모리(NPS4)를 논리적으로 격리함으로써 단일 GPU를 여러 개의 가상 GPU로 나눌 수 있습니다. ClearML Agent는 이러한 분할된 자원을 동적으로 할당하고 관리하여, 대규모 학습부터 소규모 추론까지 다양한 워크로드를 동시에 효율적으로 처리할 수 있게 지원합니다.

배경

AMD Instinct MI300X GPU, ROCm 7.0.1 이상, ClearML Agent 설치, Ubuntu 22.04 환경

대상 독자

AI 인프라 관리자 및 MLOps 엔지니어

의미 / 영향

이 기술은 고가의 GPU 자원 낭비를 줄여 기업의 AI 인프라 운영 비용을 획기적으로 절감합니다. 특히 대규모 모델 학습뿐만 아니라 소규모 파인튜닝과 추론 워크로드가 혼재된 환경에서 하드웨어 효율성을 극대화하는 표준 모델이 될 것입니다.

섹션별 상세

AMD Instinct MI300X는 CDNA 3 아키텍처를 기반으로 하며 XCD(Accelerator Complex Dies)와 IOD(I/O Dies) 칩렛으로 구성됩니다. 기본 SPX 모드 외에 CPX(8분할), QPX(4분할), DPX(2분할) 모드를 지원하여 워크로드 요구 사항에 따라 연산 자원을 유연하게 나눌 수 있습니다. 이러한 논리적 격리는 워크로드 간의 간섭을 줄이고 독립적인 실행 환경을 보장합니다.

MI300X의 SPX 모드와 CPX 모드 아키텍처 비교 다이어그램 — Diagram단일 장치로 작동하는 SPX 모드와 8개의 독립적인 연산 파티션으로 나뉘는 CPX 모드의 구조적 차이를 보여줍니다. XCD 유닛들이 어떻게 그룹화되어 가상 GPU를 형성하는지 시각적으로 설명합니다.

메모리 파티셔닝은 NPS(Nodes Per Socket) 설정을 통해 제어됩니다. NPS4 모드에서는 HBM 메모리 스택을 4개의 NUMA 도메인으로 나누어 각 연산 유닛이 가장 가까운 메모리에 접근하도록 유도합니다. 이를 통해 메모리 접근 지연 시간을 최소화하고 전체적인 데이터 처리량을 높여 다중 워크로드 환경에서의 성능을 최적화합니다.

NPS1과 NPS4 메모리 토폴로지 비교 도식 — Diagram메모리 스택이 통합된 NPS1과 4개의 NUMA 도메인으로 분할된 NPS4의 차이를 나타냅니다. NPS4에서 연산 유닛과 인접한 메모리 스택 간의 로컬리티가 어떻게 강화되는지 보여줍니다.

ClearML Agent는 --dynamic-gpus 옵션을 통해 분할된 GPU 슬라이스를 자동으로 관리합니다. 사용자는 UI에서 특정 큐에 워크로드를 할당하기만 하면, 에이전트가 가용 자원을 확인하여 중복 할당 없이 독립된 파티션에서 작업을 실행합니다. 이는 인프라의 복잡성을 추상화하여 데이터 과학자가 모델 개발에만 집중할 수 있게 돕습니다.

실제 검증 과정에서 ROCm 7.0.1 환경의 8개 MI300X 노드를 사용했습니다. amd-smi 명령어로 CPX 및 NPS4를 설정한 결과 총 64개의 독립적인 GPU 파티션이 생성되었으며, ClearML은 이를 개별 가상 장치로 인식하여 워크로드를 격리 배포했습니다. 주피터 노트북 인스턴스 내에서도 할당된 단일 파티션만 가시화되는 것을 확인했습니다.

64개의 GPU 파티션이 인식된 ROCm SMI 로그 화면 — Screenshot8개의 MI300X GPU가 각각 8개씩 분할되어 총 64개의 독립적인 연산 장치로 시스템에 인식된 상태를 증명합니다. 각 파티션의 온도, 전력, 파티션 모드 정보를 상세히 제공합니다.

주피터 노트북 컨테이너 내의 단일 GPU 파티션 가시성 확인 — ScreenshotClearML을 통해 배포된 작업 환경에서 사용자가 할당받은 단일 GPU 파티션만 보이고 있음을 확인시켜 줍니다. 이는 하드웨어 분할을 통한 완벽한 자원 격리가 실현되었음을 나타냅니다.

실무 Takeaway

MI300X의 CPX 모드를 사용하여 단일 물리 GPU를 8개의 독립적인 가상 GPU로 분할하면 동시 워크로드 처리량을 최대 8배까지 늘려 하드웨어 투자 수익률을 극대화할 수 있습니다.
NPS4 메모리 파티셔닝을 적용하여 연산 유닛과 메모리 스택 간의 물리적 거리를 최적화하면 다중 워크로드 실행 시 발생하는 병목 현상을 줄이고 처리 성능을 향상시킬 수 있습니다.
ClearML의 동적 GPU 할당 기능을 활용하여 큐 기반으로 분할된 자원을 관리하면 복잡한 하드웨어 설정 없이도 클라우드와 같은 유연한 AI 개발 환경을 구축할 수 있습니다.