dynamic-quantization
모델의 각 레이어나 가중치 특성에 따라 양자화 파라미터를 가변적으로 조정하는 방식이다. 중요한 가중치에는 더 많은 비트를 할당하여 성능 저하를 최소화한다.
Q3가 Q4보다 좋다? 양자화의 상식을 뒤집는 실험 결과 논의