추론 서빙
inference-serving은 학습된 모델을 서비스 환경에서 실시간 요청에 맞춰 실행하는 과정으로, 입력 텍스트의 전처리, 모델 추론, 후처리, 응답 반환을 연속적으로 수행한다. 이 과정에서는 레이턴시 SLA, 스케일링 전략, 배치 처리 정책과 하드웨어 선택이 전체 응답 성능과 비용에 큰 영향을 미친다.