serverless-inference
서버 인프라를 직접 관리하지 않고 API 호출 시에만 자원을 할당받아 추론을 수행하는 방식으로, 사용량에 비례해 과금되어 비용 최적화에 유리하다.
8분 추론에 100분 과금? 서버리스 MLOps의 숨겨진 비용 함정