INT4 양자화
모델의 가중치를 4비트 정수 형식으로 압축하여 메모리 사용량을 줄이고 연산 속도를 높이는 기법이다. 정확도 손실을 최소화하면서도 모델 크기를 약 1/4로 줄여 저사양 하드웨어에서 대형 모델을 실행할 수 있게 한다.
24GB GPU에서 32B 모델을? zse v1.3.1의 혁신적인 추론 최적화