제로-3/완전 샤드 데이터 병렬화
모델 파라미터, 그래디언트, 옵티마이저 상태를 여러 GPU에 분산 저장하여 대규모 모델을 학습 가능하게 하는 기술이다. 주로 모델 크기 확장에 집중하며, 시퀀스 길이에 따른 메모리 압박 해결에는 한계가 있다.