KV 캐시 압축
LLM 추론 시 발생하는 Key-Value 캐시의 메모리 점유를 줄이는 기술이다. 긴 문맥을 처리할 때 하드웨어 요구 사항을 낮춰주어 효율적인 모델 서빙을 가능하게 한다.