Fully Sharded Data Parallel (FSDP)(fully-sharded-data-parallel)이란 무엇인가요?

Question

Accepted Answer

PyTorch의 분산 학습 기법으로 모델 파라미터·그라디언트·옵티마이저 상태를 GPU들에 샤딩하여 단일 GPU 메모리 한계를 넘는 모델을 학습할 수 있게 한다. 샤딩 전략과 메모리 관리 방식에 따라 통신·메모리 트레이드오프가 발생하므로 Blackwell의 메모리/대역폭 개선과 결합해 효율을 높일 수 있다.

fully-sharded-data-parallel

비슷한 개념