모델 샤딩
대형 모델의 파라미터와 상태를 여러 GPU에 분산 저장해 단일 GPU 메모리 한계를 극복하는 방법으로, 통신 비용과 동기화 전략이 전체 성능에 큰 영향을 준다. Blackwell의 대역폭·메모리 확장은 샤딩 단순화로 이어진다.