KV 프리픽스 캐싱(kv-prefix-caching)이란 무엇인가요?

Question

Accepted Answer

LLM 추론 시 시스템 프롬프트나 도구 스키마처럼 반복되는 입력의 앞부분(Prefix)에 대한 연산 결과(Key-Value)를 메모리에 저장해두는 기술이다. 동일한 컨텍스트가 포함된 후속 요청에서 중복 연산을 생략하여 초기 응답 속도를 획기적으로 높인다. 대규모 컨텍스트를 다루는 RAG나 에이전트 시스템에서 필수적인 최적화 기법이다.

kv-prefix-caching

비슷한 개념