온라인 회전
추론 시 실시간으로 입력 데이터에 직교 행렬을 곱해 이상치를 여러 채널로 분산시키는 기법이다. 양자화 시 발생하는 정보 손실을 최소화하는 데 효과적이다.
AMD Instinct MI350X에서 MXFP4 양자화로 성능 저하 없이 모델 크기 절반으로 줄이기