KV 캐시 압축
LLM 추론 시 이전 토큰의 Key와 Value를 저장하는 메모리를 줄여 긴 문맥 처리를 가능하게 하는 기술이다. 메모리 대역폭 병목을 해결하여 추론 속도를 높이고 더 긴 텍스트 입력을 지원하는 데 필수적이다.