양자화
모델의 가중치 정밀도를 낮추어 메모리 사용량을 줄이는 기법입니다. 원문에서 언급된 qwen2.5-coder 7B 등을 로컬 노트북에서 실행할 때 메모리 한계를 극복하기 위해 사용됩니다.