제로-3
DeepSpeed에서 제공하는 메모리 최적화 기술로 모델 파라미터, 그래디언트, 옵티마이저 상태를 모든 GPU에 분산 저장한다. 대규모 언어 모델 학습 시 메모리 부족 문제를 해결하고 병렬 처리 효율을 높이는 데 필수적인 기술이다.