비디오 램 관리
한정된 GPU 메모리 내에서 여러 모델을 효율적으로 실행하기 위해 사용하지 않는 모델을 메모리에서 해제하거나 로딩 순서를 제어하는 기술이다. 이 노드에서는 LLM 추론 후 서버를 종료하여 이미지 생성 모델용 공간을 확보한다.