W8A8 양자화
모델의 가중치(Weights)와 활성화 함수(Activations)를 모두 8비트 정수로 변환하여 연산 효율을 높이는 기법이다. 메모리 사용량을 줄이고 추론 속도를 대폭 향상시키면서도 정밀도 손실을 최소화한다.