활성화 가중치 양자화
모델의 가중치를 정밀도가 낮은 데이터 형식으로 변환하여 메모리 사용량과 연산 비용을 줄이는 최적화 기술이다. 중요한 가중치를 보존하면서도 추론 비용을 획기적으로 절감할 수 있어 대규모 서비스 배포에 필수적이다.