NF4 양자화
4비트 NormalFloat 양자화 기법으로, 대규모 언어 모델의 가중치를 정밀도가 낮은 형식으로 압축하여 메모리 사용량을 획기적으로 줄이면서도 모델의 추론 성능을 최대한 유지하는 기술이다.