아담W
가중치 감쇠(Weight Decay)를 최적화 단계에서 분리하여 적용하는 Adam 옵티마이저의 변형이다. 일반적인 Adam보다 일반화 성능이 뛰어나 LLM 학습에서 표준적으로 사용되는 알고리즘이다.
2x RTX 3090으로 3B 모델 바닥부터 학습하기: 실현 가능한 도전일까?