추론 최적화
학습된 AI 모델을 실제 서비스 환경에서 실행할 때 속도를 높이고 컴퓨팅 자원 소모를 줄이는 기술이다. 모델의 크기를 줄이거나 연산 과정을 효율화하여 낮은 비용으로 빠른 응답을 가능하게 한다.