optimizer-state
학습 과정에서 가중치를 업데이트하기 위해 옵티마이저(예: AdamW)가 내부적으로 저장하는 모멘텀 등의 추가 정보이다. 모델 파라미터 자체보다 훨씬 더 많은 VRAM을 차지할 수 있어 하드웨어 설계 시 핵심 고려 사항이다.
학습 과정에서 가중치를 업데이트하기 위해 옵티마이저(예: AdamW)가 내부적으로 저장하는 모멘텀 등의 추가 정보이다. 모델 파라미터 자체보다 훨씬 더 많은 VRAM을 차지할 수 있어 하드웨어 설계 시 핵심 고려 사항이다.