KV 캐시 최적화(kv-cache-optimization)이란 무엇인가요?

Question

Accepted Answer

LLM 추론 시 이전 토큰의 Key와 Value 값을 메모리에 저장하여 재계산을 방지하는 기술이다. 긴 컨텍스트 처리 시 발생하는 메모리 병목과 지연 시간을 줄이는 데 핵심적인 역할을 한다.

kv-cache-optimization