깊이의 저주
LLM의 층이 깊어질수록 후반부 층들이 학습에 기여하지 못하고 입력을 그대로 통과시키는 현상이다. 분산 폭발로 인해 그래디언트가 항등 함수에 가까워지며 발생하며, 모델의 파라미터 낭비와 성능 정체를 유발하는 핵심 원인으로 지목된다.