본문으로 건너뛰기

pre-layer-normalization

프리 레이어 정규화

중급

Transformer 블록의 잔차 연결 이전에 Layer Normalization을 적용하는 구조이다. 학습 안정성을 높여주지만, 층이 깊어질수록 잔차 스트림의 분산이 누적되어 깊은 층의 유효 업데이트량을 줄이는 부작용을 낳기도 한다.