버퍼 풀
데이터베이스에서 디스크 I/O를 줄이기 위해 자주 사용하는 데이터를 메모리에 유지하는 영역이다. LLM 추론의 KV 캐시 관리에도 이와 유사한 메모리 관리 기법을 적용하여 데이터 접근 속도를 최적화하고 시스템 효율을 높일 수 있다.
LLM 추론 비용의 주범 KV 캐시, DB 엔진처럼 관리하여 해결한다
LLM 추론 비용의 주범 KV 캐시, DB 엔진처럼 관리하면 해결될까?