양자화된 저순위 적응
LoRA 기법에 4비트 양자화를 결합하여 메모리 사용량을 극단적으로 낮춘 방식이다. 단일 소비자용 GPU에서도 수십억 개의 파라미터를 가진 거대 모델을 학습할 수 있게 하여 파인튜닝의 하드웨어 장벽을 낮췄다.