W4A16 양자화
모델 가중치(Weight)는 4비트로, 연산 시 활성화 값(Activation)은 16비트로 유지하는 양자화 방식이다. 효율적인 압축과 연산 정확도 사이의 균형을 맞추는 데 사용된다.