본문으로 건너뛰기

inference-acceleration

추론 가속

중급

학습된 AI 모델이 실제 요청에 응답하는 과정인 추론 단계에서 지연 시간을 줄이고 처리량을 높이기 위해 전용 하드웨어나 최적화 기술을 사용하는 과정이다.