WSD 쿨다운
Warmup-Stable-Decay 학습률 스케줄링 전략의 마지막 단계로, 안정적인 학습 후반부에 학습률을 서서히 낮추는 과정이다. 모델이 최종적인 최적점에 부드럽게 도달하도록 도와 성능을 극대화하는 역할을 하며 최신 모델 학습에 자주 사용된다.