양자화
모델의 가중치와 활성화 값을 표현하는 비트 수를 줄여 모델 크기를 압축하고 연산 속도를 높이는 기법이다. 부동 소수점 데이터를 정수형(INT8, INT4 등)으로 변환함으로써 메모리 사용량을 절감하고 하드웨어 가속기 활용도를 높인다.