IQ3 XXS 양자화
Importance Matrix를 활용한 3비트 미만의 극저비트 양자화 방식으로, 모델 크기를 획기적으로 줄이면서도 지능 저하를 최소화한다. 단일 24GB VRAM 환경에서 고성능 대형 모델을 빠르게 실행할 수 있게 해주는 최적화 기술이다.