리제로
각 잔차 계층의 출력을 학습 가능한 스칼라 값(초기값 0)으로 조절하는 기법이다. 모델이 초기에는 항등 함수처럼 동작하게 하여 매우 깊은 네트워크도 안정적으로 학습할 수 있게 돕고 수렴 속도를 획기적으로 개선한다.