KV 캐시 프루닝
LLM 추론 시 메모리 사용량을 줄이기 위해 불필요한 키-값(KV) 캐시를 제거하는 기법이다. 모델이 중요한 정보만을 유지하도록 학습시켜 추론 속도를 높이고 더 긴 컨텍스트 처리를 가능하게 한다.