8비트 AdamW 옵티마이저
모델 학습 시 가중치 업데이트를 최적화하는 알고리즘인 AdamW를 8비트 정밀도로 압축하여 메모리 사용량을 획기적으로 줄인 버전이다. 성능 저하를 최소화하면서도 일반 소비자용 GPU에서 대규모 모델 학습을 가능하게 한다.