확률적 경사 하강법
모델의 가중치를 업데이트하기 위해 그래디언트를 계산하고 적용하는 최적화 알고리즘이다. 대규모 모델 학습 시 수천 개의 GPU가 계산된 그래디언트를 서로 공유하며 동기화해야 하므로 막대한 네트워크 대역폭을 소모한다.