checkpointing
모델 학습 과정에서 중간 상태를 디스크에 저장하여 시스템 장애나 중단 발생 시 마지막 저장 지점부터 작업을 재개할 수 있도록 하는 기법이다. 저장 작업 중에는 GPU 연산이 일시적으로 멈추기 때문에, 단순 사용률 기반의 자동 종료 로직이 이를 유휴 상태로 오판할 위험이 있어 주의가 필요하다.
모델 학습 과정에서 중간 상태를 디스크에 저장하여 시스템 장애나 중단 발생 시 마지막 저장 지점부터 작업을 재개할 수 있도록 하는 기법이다. 저장 작업 중에는 GPU 연산이 일시적으로 멈추기 때문에, 단순 사용률 기반의 자동 종료 로직이 이를 유휴 상태로 오판할 위험이 있어 주의가 필요하다.