양자화 기법
LLM의 가중치를 4비트 등으로 압축하여 모델 크기와 메모리 사용량을 대폭 줄이는 포스트 트레이닝 양자화 기술이다. 96GB VRAM 환경에서 122B와 같은 거대 모델을 구동하기 위해 필수적인 최적화 방식이다.