fsdp
모델 파라미터, 그래디언트, 옵티마이저 상태를 여러 GPU에 분산하여 저장함으로써 메모리 사용량을 줄이는 기법이다. 대규모 모델을 제한된 GPU 메모리 환경에서 학습시킬 때 필수적으로 사용되는 병렬화 전략이다.
H100 1.6만 개로 Llama 3.1 학습하면? MFU 1% 오차로 맞히는 시뮬레이터
코드 생성 AI의 진화: SageMaker와 Ray로 구현하는 대규모 강화학습 가이드
70개 이상의 모델과 25종의 GPU를 지원하는 LLM 학습 비용 시뮬레이터
파이썬 소켓만으로 구현한 분산 학습 알고리즘의 모든 것
LinkedIn이 공개한 GPT-OSS 에이전틱 RL 학습의 비밀: 성능과 안정성 동시 확보