분산 데이터 병렬 처리
여러 GPU에 데이터를 나누어 학습을 가속화하는 기술로, 각 GPU(랭크) 간의 연산 속도와 데이터 공급 속도가 일치해야 최대 효율을 낼 수 있다.
PyTorch 학습이 왜 느릴까? TraceML로 실시간 병목 지점 완벽 분석
로봇 공학의 게임 체인저 VLA 모델, Ray로 대규모 학습하는 실전 가이드