웜업
학습 초기 단계에서 매우 낮은 학습률로 시작하여 일정 스텝 동안 목표치까지 선형적으로 높이는 과정이다. 모델 가중치가 초기화된 상태에서 발생하는 급격한 그래디언트 업데이트를 방지하여 학습 초기 발산을 막고 안정성을 높인다.