하드웨어 가속
GPU·가속기 특유의 연산 유닛과 메모리 인터페이스, 명령어 수준 최적화를 활용해 모델 추론을 빠르게 수행하는 방식으로, 컴파일러·드라이버·라이브러리 조정으로 같은 모델을 더 낮은 비용·지연으로 운영할 수 있게 한다.