완전 샤딩 데이터 병렬 처리
모델 파라미터, 그래디언트, 옵티마이저 상태를 여러 GPU에 분산하여 저장함으로써 메모리 사용량을 줄이는 기법이다. 대규모 모델을 제한된 GPU 메모리 환경에서 학습시킬 때 필수적으로 사용되는 병렬화 전략이다.