서빙 런타임
AI 모델이 추론을 수행할 수 있도록 실행 환경을 제공하고 API 요청을 관리하는 소프트웨어 계층입니다. 모델 가중치를 로드하고 하드웨어 가속기를 활용하여 최적의 성능으로 추론 결과를 반환하는 역할을 합니다.