Fully Sharded Data Parallel (FSDP) (fully-sharded-data-parallel) 용어 설명 | AI Trends
fully-sharded-data-parallel
Fully Sharded Data Parallel (FSDP)
중급
PyTorch의 분산 학습 기법으로 모델 파라미터·그라디언트·옵티마이저 상태를 GPU들에 샤딩하여 단일 GPU 메모리 한계를 넘는 모델을 학습할 수 있게 한다. 샤딩 전략과 메모리 관리 방식에 따라 통신·메모리 트레이드오프가 발생하므로 Blackwell의 메모리/대역폭 개선과 결합해 효율을 높일 수 있다.