터보 양자화
추론 속도를 극대화하기 위해 설계된 양자화 기법의 일종으로, 특정 하드웨어 가속기에서 효율적으로 작동하도록 최적화된 방식이다. 모델의 가중치를 낮은 비트로 변환하면서도 연산 병목을 최소화하여 전체적인 처리량을 높이는 데 기여한다.