serverless-gpu
사용자가 서버 인프라를 직접 관리하지 않고 요청이 있을 때만 GPU 자원을 할당받아 사용하는 방식이다. 사용한 만큼만 비용을 지불하므로 경제적이지만 콜드 스타트 지연 시간이 발생할 수 있다.
2분 걸리던 LLM 부팅을 12초 만에? Modal의 GPU 스냅샷 기술