연쇄 법칙
합성함수의 미분을 구하는 수학적 방법이다. 딥러닝에서는 여러 층으로 쌓인 신경망의 각 층별 그래디언트를 계산하기 위해 필수적으로 사용된다.
loss.backward() 없이 구현한 트랜스포머의 기적