분산 전파
신경망의 각 층을 통과할 때 신호의 분산이 변화하고 전달되는 과정이다. Pre-LN 구조에서는 층이 깊어질수록 분산이 지수적으로 증가하며, 이는 깊은 층의 가중치 업데이트를 상대적으로 무의미하게 만들어 학습 효율을 저하시킨다.