그래디언트 폭주 및 소실
역전파 과정에서 그래디언트가 너무 커지거나 작아져 학습이 제대로 이루어지지 않는 현상이다. 트랜스포머와 같은 깊은 신경망 구조에서 해결해야 할 주요 과제 중 하나이다.
loss.backward() 없이 구현한 트랜스포머의 기적