추론 서비스
학습이 완료된 모델을 실제 운영 환경에 배포하여 사용자 요청에 대해 예측 결과를 반환하는 시스템이다. 단순한 API 서버와 달리 모델의 메모리 점유율, 지연 시간, 결과의 정확성 등을 실시간으로 모니터링하고 관리해야 한다.