kv-cache
이전 토큰 생성 시 계산된 Key와 Value 벡터를 메모리에 저장해두는 기법이다. 매번 처음부터 다시 계산할 필요를 없애주어 생성 속도를 비약적으로 높이지만 메모리 사용량이 늘어난다.
LLM 메모리 병목 해결: 50배 압축에도 성능 유지하는 어텐션 매칭
194k 토큰 처리에 1700초? B580 GPU의 LLM 추론 성능 한계와 발열 문제
프롬프트 없이 스킬 주입? KV 캐시 실험으로 확인한 소형 모델의 가능성
지옥 같던 LLM 장애, vLLM 하나로 응답 속도 3배 높인 비결
KV 캐시를 Q8_0으로 낮췄는데 성능이 올랐다? Qwen 모델의 기현상