1비트 양자화
모델의 가중치를 1비트(0 또는 1)로 표현하여 모델 크기를 극단적으로 줄이는 기술이다. 가중치 데이터를 비트 단위로 압축하여 메모리 대역폭 요구량을 낮추고 연산 효율을 높이는 방식으로 작동한다. VRAM이 부족한 저사양 하드웨어에서도 대규모 언어 모델을 구동할 수 있게 해주는 핵심적인 최적화 기법이다.