본문으로 건너뛰기

weight-quantization

양자화

중급

모델 가중치를 낮은 비트 표현으로 근사하여 모델 크기와 연산 비용을 줄이는 기법으로서 본문에서는 round-to-nearest 같은 단순 방법이 슈퍼 웨이트·액티베이션을 보존할 때 경쟁력 있는 성능을 낸다고 보고되었다. 특히 소수의 특이 가중치를 별도로 처리하면 블록 크기를 키워도 성능 저하를 억제할 수 있다. 하드웨어 친화적 압축을 위해 슈퍼 웨이트를 고정 정밀도로 유지하는 전략이 제안되었다.