아담W
가중치 감쇠(Weight Decay)를 최적화 단계에서 분리하여 적용하는 Adam 옵티마이저의 변형이다. 일반적인 Adam보다 일반화 성능이 뛰어나 LLM 학습에서 표준적으로 사용되는 알고리즘이다.