레이어 정규화
각 층의 활성화 값을 평균과 분산을 이용해 정규화하여 학습을 안정화하고 속도를 높이는 기법이다. 트랜스포머에서는 각 서브 레이어의 입력 직전에 적용되어 그래디언트 소실이나 폭주 문제를 완화한다.
GPT-2를 내 손으로 직접? MAX API로 배우는 LLM 아키텍처