vanishing-gradient
신경망 학습 중 경사값이 소실되어 가중치 업데이트가 제대로 이루어지지 않는 현상으로 NoPE 모델의 초기 학습을 어렵게 만든다.
학습은 RoPE로 추론은 NoPE로? Sakana AI의 획기적 컨텍스트 확장