그래디언트 노름 폭주
학습 과정에서 가중치 업데이트량이 너무 커져 모델이 불안정해지거나 발산하는 현상이다. 주로 보상 신호가 너무 작거나 불연속적일 때 발생하며, 수치적 불안정성을 초래하여 학습을 방해한다.