KV 캐시 양자화
LLM 추론 중 문맥 정보를 저장하는 Key-Value 캐시의 정밀도를 낮춰 메모리 사용량을 줄이는 기술이다. 이를 통해 더 긴 문맥을 처리하거나 더 큰 모델을 제한된 VRAM에서 실행할 수 있다.