KV 캐시 압축(kv-compaction)이란 무엇인가요?

Question

Accepted Answer

LLM 추론 시 발생하는 Key-Value 캐시의 메모리 점유를 줄이는 기술이다. 긴 문맥을 처리할 때 하드웨어 요구 사항을 낮춰주어 효율적인 모델 서빙을 가능하게 한다.

kv-compaction