옵티마이저 상태
Adam과 같은 최적화 알고리즘이 학습 과정에서 유지하는 모멘텀 및 분산 값이다. 모델 파라미터보다 훨씬 큰 메모리를 차지하며, 대규모 모델 학습 시 GPU 메모리 부족을 일으키는 주요 원인이 된다.