8비트 양자화
모델의 가중치를 32비트 부동 소수점에서 8비트 정수로 변환하여 모델 크기를 줄이고 추론 속도를 높이는 최적화 기법이다. 메모리 사용량을 대폭 절감하면서도 성능 하락을 최소화하는 것이 핵심이다.