서비스 조건에 따라 KV 캐시 압축을 자동으로 최적화한다
Disaggregated LLM 서빙에서 KV는 네트워크 경계를 넘나드는 핵심 페이로드다. 기존 KV 압축은 정적 구성에 의존해 다양한 서비스 조건에서 최적이 아닐 수 있으며, 대역폭 변화나 SLO/품질 예산의 변동에 따라 성능이 하락할 수 있다. KVServe는 온라인 서비스 상태를 감지해 KV 압축 프로파일을 동적으로 선택하고, 오프라인에서 3D Pareto Frontier를 구성해 온라인 선택의 근거를 제공한다. 이로써 PD separation 및 KV state disaggregation 방식에서 엔드-투-엔드 지연(JCT)을 최대 수배 단위로 개선하고, TTFT를 크게 감소시킨다.