awq
Activation-aware Weight Quantization의 약자로, 모델 실행 시 활성화 값이 큰 중요한 가중치를 보존하며 양자화하는 기법이다. 일반적인 양자화보다 모델의 추론 성능 손실이 적은 것이 특징이다.
AWQ부터 CoreML까지, 복잡한 양자화를 파이썬 코드 한 줄로 해결