gradient-explosion
그래디언트 폭주
역전파 과정에서 기울기 값이 기하급수적으로 커져 모델 가중치가 매우 큰 값으로 업데이트되는 문제이다. 이로 인해 학습이 발산하고 NaN 손실로 이어지기 때문에, 학습 안정성을 확보하는 데 있어 핵심적인 해결 과제이다.
그래디언트 폭주
역전파 과정에서 기울기 값이 기하급수적으로 커져 모델 가중치가 매우 큰 값으로 업데이트되는 문제이다. 이로 인해 학습이 발산하고 NaN 손실로 이어지기 때문에, 학습 안정성을 확보하는 데 있어 핵심적인 해결 과제이다.