he-initialization
ReLU 활성화 함수를 사용하는 신경망에서 가중치를 초기화하는 방법이다. 층이 깊어져도 그래디언트가 소실되거나 폭주하지 않도록 가중치의 분산을 조절하여 안정적인 학습을 돕는다.
깊을수록 좋을까? 신경망 층수에 따른 성능과 불안정성의 상관관계
레이어가 많을수록 좋을까? 실험으로 밝힌 신경망 깊이의 임계점