MXFP4 정밀도
데이터를 4비트 미세 스케일링 부동소수점 형식으로 표현하는 수치 계산 방식이다. 모델의 정확도는 유지하면서 연산량과 메모리 사용량을 획기적으로 줄여, 로컬 환경에서도 거대 모델의 빠른 추론을 가능하게 한다.
블랙웰 GPU에서 Qwen 3.5 122B 모델은 얼마나 빠를까?
MXFP4 레이어 제거로 더 정교해진 Qwen3-Coder-Next 양자화 모델
MXFP4 양자화, 모델에 따라 성능 차이 극명하다
OpenAI의 오픈소스 모델 gpt-oss를 로컬에서 실행하는 방법
AMD Instinct MI350X에서 MXFP4 양자화로 성능 저하 없이 모델 크기 절반으로 줄이기