계층적 샤딩 데이터 병렬화
대규모 모델 학습을 위해 데이터를 여러 GPU에 분산 처리하는 기술이다. Colossus 2와 같은 대규모 인프라에서 모델을 효율적으로 학습시키기 위해 사용된다.