quantization
모델의 가중치와 활성화 값을 표현하는 비트 수를 줄여 모델 크기를 압축하고 연산 속도를 높이는 기법이다. 부동 소수점 데이터를 정수형(INT8, INT4 등)으로 변환함으로써 메모리 사용량을 절감하고 하드웨어 가속기 활용도를 높인다.
모델의 가중치와 활성화 값을 표현하는 비트 수를 줄여 모델 크기를 압축하고 연산 속도를 높이는 기법이다. 부동 소수점 데이터를 정수형(INT8, INT4 등)으로 변환함으로써 메모리 사용량을 절감하고 하드웨어 가속기 활용도를 높인다.