스무스퀀트
활성화 값의 이상치를 가중치로 전이시켜 양자화 난이도를 조절하는 기법이다. 대각 행렬 변환을 통해 데이터 분포를 부드럽게 만들어 오차를 줄인다.
AMD Instinct MI350X에서 MXFP4 양자화로 성능 저하 없이 모델 크기 절반으로 줄이기