zero
데이터 병렬 처리 시 발생하는 메모리 중복을 제거하여 더 큰 모델을 학습할 수 있게 하는 최적화 기술이다. 파라미터와 상태를 샤딩하여 GPU 간 메모리 효율을 극대화하며, DeepSpeed 라이브러리의 핵심 기술로 알려져 있다.
데이터 병렬 처리 시 발생하는 메모리 중복을 제거하여 더 큰 모델을 학습할 수 있게 하는 최적화 기술이다. 파라미터와 상태를 샤딩하여 GPU 간 메모리 효율을 극대화하며, DeepSpeed 라이브러리의 핵심 기술로 알려져 있다.