warmup
웜업
학습 초기 단계에서 매우 낮은 학습률로 시작하여 일정 스텝 동안 목표치까지 선형적으로 높이는 과정이다. 모델 가중치가 초기화된 상태에서 발생하는 급격한 그래디언트 업데이트를 방지하여 학습 초기 발산을 막고 안정성을 높인다.
웜업
학습 초기 단계에서 매우 낮은 학습률로 시작하여 일정 스텝 동안 목표치까지 선형적으로 높이는 과정이다. 모델 가중치가 초기화된 상태에서 발생하는 급격한 그래디언트 업데이트를 방지하여 학습 초기 발산을 막고 안정성을 높인다.