모델 캐싱
한 번 로드된 모델 가중치를 메모리나 빠른 저장소에 유지하여, 다음 요청 시 로딩 시간 없이 즉시 추론을 시작하게 하는 기술이다. 서버리스 환경에서 콜드 스타트 문제를 해결하는 데 중요하다.