모델 추론
요청된 입력을 모델이 처리해 예측·생성 결과를 반환하는 과정이다. 입력 텍스트나 피처가 추론 엔진으로 전달되면 모델이 연산을 수행해 출력 토큰이나 레이블을 생성하며, 지연·처리량·자원 소비가 운영 품질에 직접 영향을 준다. MLOps 맥락에서는 Serving, 캐싱, 배치/실시간 전략이 핵심 설계 요소이다.