RCCLX: AMD 플랫폼에서의 GPU 통신 혁신

핵심 요약

대규모 언어 모델(LLM)의 추론 및 학습 과정에서 GPU 간 통신 병목 현상은 전체 성능의 주요 장애물이다. Meta는 이를 해결하기 위해 AMD 플랫폼에 최적화된 통신 라이브러리인 RCCLX를 오픈소스로 공개했다. RCCLX는 소규모 메시지 지연 시간을 줄이는 Direct Data Access(DDA)와 대규모 데이터 전송 효율을 높이는 저정밀도(Low Precision) 집합 통신 기능을 도입했다. 이를 통해 AMD MI300X 환경에서 디코딩 단계의 지연 시간을 줄이고 전체 처리량을 개선하는 성과를 거두었다.

배경

GPU 집합 통신(AllReduce, AllGather 등)에 대한 이해, AMD ROCm 환경 및 Instinct GPU 아키텍처 지식, PyTorch 및 Torchcomms 라이브러리 사용 경험

대상 독자

AMD GPU 기반 AI 인프라 엔지니어 및 LLM 성능 최적화 개발자

의미 / 영향

AMD GPU 생태계의 소프트웨어 스택이 강화되어 NVIDIA 중심의 AI 하드웨어 시장에 실질적인 대안을 제시한다. 특히 통신 병목 해결을 통해 AMD 하드웨어의 가성비와 효율성이 크게 개선될 것으로 보인다.

섹션별 상세

Meta는 내부 워크로드에서 검증된 RCCL의 강화 버전인 RCCLX를 오픈소스로 공개했다. 이는 AMD 플랫폼에서 연구자와 개발자가 하드웨어 성능을 최대한 활용할 수 있도록 돕기 위함이다. 특히 Torchcomms와 통합되어 백엔드에 관계없이 일관된 API를 사용할 수 있는 환경을 제공한다.

LLM 추론의 디코딩 단계는 메모리 대역폭에 제한을 받으며, AllReduce 연산이 전체 지연 시간의 최대 30%를 차지한다. DDA는 각 GPU 랭크가 다른 랭크의 메모리에 직접 접근하여 연산하는 방식으로, 통신 복잡도를 O(N)에서 O(1)로 낮춘다. AMD MI300X에서 디코딩 성능은 10-50%, 프리필 성능은 10-30% 향상되었다.

대규모 메시지 전송 시 발생하는 오버헤드를 줄이기 위해 FP8 양자화를 활용한 저정밀도 집합 통신을 지원한다. FP32 및 BF16 데이터를 FP8로 압축하여 전송함으로써 통신량을 최대 4:1로 줄이면서도, 연산은 고정밀도로 수행해 수치적 안정성을 유지한다. 이를 통해 추론 지연 시간은 약 9-10% 감소하고 처리량은 7% 증가하는 효과를 확인했다.

RCCLX는 Torchcomms API의 커스텀 백엔드로 통합되어 기존 NVIDIA 플랫폼용 NCCLX와 기능적 동등성을 목표로 한다. 개발자는 익숙한 API를 그대로 사용하면서 환경 변수 설정만으로 AMD 플랫폼의 최적화 기능을 활성화할 수 있다. 이는 플랫폼 간 애플리케이션 이식성을 높이고 하드웨어 선택의 유연성을 제공한다.

이미지 분석

Chart
작은 메시지 크기에서 기준 대비 최대 70%에 가까운 속도 향상을 기록했다. 메시지 크기가 커질수록 향상 폭은 줄어들지만 여전히 유의미한 이득을 제공함을 보여준다.
메시지 크기에 따른 DDA의 속도 향상 폭을 나타내는 그래프이다.

Chart
프리필 단계에서 약 4%, 디코딩 단계에서 약 10%의 성능 향상이 발생했음을 시각화했다. 이는 DDA 기술이 실제 LLM 추론 워크로드에 미치는 실질적인 영향을 입증한다.
엔드투엔드 워크로드에서 프리필과 디코딩 단계의 속도 향상 비율을 보여주는 막대 그래프이다.

Chart
메시지 크기가 커질수록 개선율이 상승하여 최대 75-85% 수준의 성능 향상을 달성했다. 대규모 데이터 통신에서 저정밀도 최적화의 효율성을 뒷받침한다.
저정밀도 FP32와 기준 BF16/FP8 간의 AllReduce 개선율을 나타낸다.

Screenshot
기존 NVIDIA 환경에서의 통신 초기화 및 AllReduce 실행 방식을 보여준다. 이후 제시되는 AMD용 코드와 구조가 동일함을 비교하기 위한 자료이다.
NVIDIA 플랫폼에서 NCCLX 백엔드를 사용하는 Torchcomms 코드 예제이다.

Screenshot
백엔드 이름을 'rcclx'로, 장치를 'hip'으로 변경하는 것만으로 AMD 최적화 기능을 사용할 수 있음을 증명한다. 플랫폼 간 코드 이식성이 매우 높음을 시사한다.
AMD 플랫폼에서 RCCLX 백엔드를 사용하는 Torchcomms 코드 예제이다.

실무 Takeaway

AMD MI300X 기반 LLM 서비스 구축 시 RCCLX의 DDA 기능을 활용해 디코딩 지연 시간을 최대 50%까지 단축 가능하다.
대규모 모델 학습 및 추론 시 RCCL_LOW_PRECISION_ENABLE=1 설정을 통해 수치 정확도를 유지하며 통신 처리량을 7% 향상시킬 수 있다.
Torchcomms를 사용하면 코드 수정 없이 NVIDIA(NCCLX)와 AMD(RCCLX) 플랫폼 간의 통신 최적화 기능을 교체 적용할 수 있다.

언급된 리소스

GitHubTorchcomms GitHub Repository