gradient-norm
손실 함수에 대한 가중치의 기울기 크기를 나타내는 수치이다. 학습 과정에서 가중치가 얼마나 크게 업데이트되는지를 측정하며 이 값이 너무 크거나 작으면 학습이 불안정해지거나 멈출 수 있다.
깊을수록 좋을까? 신경망 층수에 따른 성능과 불안정성의 상관관계
레이어가 많을수록 좋을까? 실험으로 밝힌 신경망 깊이의 임계점