본문으로 건너뛰기

kv-compaction

KV 캐시 압축

고급

LLM 추론 시 발생하는 Key-Value 캐시의 메모리 점유를 줄이는 기술이다. 긴 문맥을 처리할 때 하드웨어 요구 사항을 낮춰주어 효율적인 모델 서빙을 가능하게 한다.