계층형 저장소
데이터의 중요도나 접근 빈도에 따라 메모리, SSD 등 서로 다른 성능의 저장 매체에 분산 저장하는 방식이다. KV 캐시를 비용 효율적으로 관리하기 위해 빠른 메모리와 저렴한 디스크를 혼합 사용하여 대규모 모델 운영 비용을 절감한다.
LLM 추론 비용의 주범 KV 캐시, DB 엔진처럼 관리하여 해결한다
LLM 추론 비용의 주범 KV 캐시, DB 엔진처럼 관리하면 해결될까?