k-quants
가중치를 특정 블록 단위로 나누어 서로 다른 비트 수준을 할당하는 최적화 기법이다. 로컬 LLM 구동 환경에서 효율적인 메모리 관리를 위해 널리 사용된다.
Q3가 Q4보다 좋다? 양자화의 상식을 뒤집는 실험 결과 논의