프리 레이어 정규화
Transformer 블록의 잔차 연결 이전에 Layer Normalization을 적용하는 구조이다. 학습 안정성을 높여주지만, 층이 깊어질수록 잔차 스트림의 분산이 누적되어 깊은 층의 유효 업데이트량을 줄이는 부작용을 낳기도 한다.