본문으로 건너뛰기

low-rank-quantization

양자화

중급

모델의 가중치 정밀도를 낮추어 메모리 사용량을 줄이는 기법입니다. 원문에서 언급된 qwen2.5-coder 7B 등을 로컬 노트북에서 실행할 때 메모리 한계를 극복하기 위해 사용됩니다.