본문으로 건너뛰기

nvfp4-quantization

NVFP4 양자화

고급

NVIDIA의 4비트 부동소수점 형식을 사용하여 모델 가중치를 압축하는 기술이다. 성능 저하를 최소화하면서 메모리 사용량과 추론 비용을 획기적으로 줄여준다.