체크포인팅
모델 학습 과정에서 중간 상태를 디스크에 저장하여 시스템 장애나 중단 발생 시 마지막 저장 지점부터 작업을 재개할 수 있도록 하는 기법이다. 저장 작업 중에는 GPU 연산이 일시적으로 멈추기 때문에, 단순 사용률 기반의 자동 종료 로직이 이를 유휴 상태로 오판할 위험이 있어 주의가 필요하다.