KVServe: 서비스-상호작용 KV 캐시 압축으로 통신 효율적 Disaggregated LLM 서빙

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

Disaggregated LLM 서빙에서 KV는 네트워크 경계를 넘나드는 핵심 페이로드다. 기존 KV 압축은 정적 구성에 의존해 다양한 서비스 조건에서 최적이 아닐 수 있으며, 대역폭 변화나 SLO/품질 예산의 변동에 따라 성능이 하락할 수 있다. KVServe는 온라인 서비스 상태를 감지해 KV 압축 프로파일을 동적으로 선택하고, 오프라인에서 3D Pareto Frontier를 구성해 온라인 선택의 근거를 제공한다. 이로써 PD separation 및 KV state disaggregation 방식에서 엔드-투-엔드 지연(JCT)을 최대 수배 단위로 개선하고, TTFT를 크게 감소시킨다.

왜 중요한가

Disaggregated LLM 서빙에서 KV는 네트워크 경계를 넘나드는 핵심 페이로드다. 기존 KV 압축은 정적 구성에 의존해 다양한 서비스 조건에서 최적이 아닐 수 있으며, 대역폭 변화나 SLO/품질 예산의 변동에 따라 성능이 하락할 수 있다. KVServe는 온라인 서비스 상태를 감지해 KV 압축 프로파일을 동적으로 선택하고, 오프라인에서 3D Pareto Frontier를 구성해 온라인 선택의 근거를 제공한다. 이로써 PD separation 및 KV state disaggregation 방식에서 엔드-투-엔드 지연(JCT)을 최대 수배 단위로 개선하고, TTFT를 크게 감소시킨다.

핵심 기여

Modular Strategy Pool

KV 압축 파이프라인을 모듈형으로 추상화하고, Transformer/Quantizer/Codec 구성의 Cartèsian 곱을 통해 기존 방법을 재사용·확장 가능한 전략 공간으로 통합한다. 이를 통해 다양한 구성의 조합을 탐색 가능한 형태로 만들고, 상호보완적 구성을 발굴한다.

Bayesian Profiling Engine

대규모 전략 공간에서 Gaussian Processes 기반 BO를 사용해 압축률(CR)과 정확도(Acc) 간의 트레이드오프를 탐색한다. 샘플 효율성을 높이기 위해 샘플링 대상을 제약 조건 하에 선별하고, 3D Pareto Frontier를 산출한다. 오프라인 프로파일링 비용을 대폭 감소시키고(약 50배), 온라인 선택의 질을 보장한다.

Service-Aware Online Controller

런타임 서비스 컨텍스트(워크로드 w, 대역폭 B, SLO, 원하는 품질 qmin)를 반영해 Pareto 후보집합에서 최적 프로필을 선택한다. 선형 지연 모델과 경량 Bandit을 결합해 시스템 드리프트를 보정하고, 실시간으로 N개 프로필 중 하나를 선택한다.

3D Pareto Frontier as Runtime Lookup

Acc-CR-Lat 축으로 비지배 포인트를 남겨 3D Pareto Frontier를 산출한다. 이 frontier는 런타임에서의 상수-시간 탐색으로 빠르게 최적 프로파일을 고르는 정적 런타임 룩업 테이블로 작동한다.

End-to-End Evaluation in vLLM

vLLM 파이프라인에 KVServe를 통합하고, PD separation 및 KV state disaggregation 환경에서 모델·데이터셋·GPUs·네트워크 구성에 대해 평가한다. PD 분리에서 JCT를 최대 9.13× 개선하고, KV disaggregation에서 TTFT를 최대 32.8× 감소시킨다. 또한 온라인 컨트롤러의 결정 오버헤드는 1 ms 미만으로 기록된다.

핵심 아이디어 이해하기

출발점: KV 캐시는 LLM 추론의 맥락에서 수십~수백 GB에 이르는 대용량 컨텍스트를 담고 네트워크 경로를 따라 이동한다. 따라서 KV 압축은 단순한 크기 축소가 아니라 네트워크 대역폭과 (de)compression 속도 간의 균형이다. 기존 접근은 정적 구성에 의존해 특정 워크로드에선 효과적이더라도 서로 다른 워크로드에서 동일하게 작동하지 않는다. KVServe는 이를 극복하기 위해 세 가지 원리로 구성된 모듈형 파이프라인과 서비스 상태를 반영한 선택 정책을 도입한다. 첫째, 파이프라인은 Transformer(전처리) → Quantizer(비트폭 축소) → Codec(인코딩)의 구성을 기본 단위로 삼고, MixHQ와 같은 혼합 정밀도 전략을 도입해 중요한 KV 영역은 고정밀을, 비중요 영역은 저정밀을 사용한다. 둘째, 오프라인에서 Bayesian Profiling Engine이 전략 공간을 탐색해 3D Pareto Frontier를 도출한다. GP를 이용한 샘플링은 수십에서 수백 시간의 엔드투엔드 프로파일링을 크게 줄이고(약 50×), 후보를 3축으로 축약한다. 셋째, Online Controller는 서비스 컨텍스트를 바탕으로 해석 가능한 지연 모델과 경량 밴딧으로 온라인에서 미세 조정을 수행한다. 이로써 Bandwidth 임계치 아래에서만 KV 압축이 이득이 되도록 필터링하고, 온라인 드리프트에 견고한 선택을 보장한다. 결과적으로 최종 선택은 3D Pareto Frontier 위의 비지배 프로필들 중에서 주어진 대역폭과 SLO 조건에서 가장 낮은 JCT를 제공하는 포인트로 수렴한다. 이러한 설계는 PD Separation 및 KV State Disaggregation 환경에서 JCT를 크게 줄이고 TTFT를 대폭 축소하는 실질적 이점을 제공한다.

방법론

Phase I: Offline Profiling(Pre-Computation)에서 파이프라인 추상화와 모듈 인스턴스를 정의한다. BV: BS = C(Q(T(X))) 구조의 KV 캐시 압축 라이프사이클을 수립하고, Transformer(Delta/Hadamard/Affine) → Quantizer(다양한 비트폭 할당) → Codec(nvCOMP 기반)로 구성한다. Mixed-Precision Head-Wise Quantization은 Retrieval Heads는 고정밀 유지, Streaming Heads는 ultra-low 비트폭으로 양자화하는 방식을 채택한다.

주요 결과

주요 벤치마크에서 KVServe는 Baseline 대비 큰 이득을 보인다. PD Separation에서 JCT가 최대 9.13× 감소하며, KV State Disaggregation에서 TTFT가 최대 32.8× 감소한다. 다양한 데이터셋(Qwen2.5-7B-Instruct, 2WikiMQA, HotpotQA 등) 및 하드웨어(H100, Pro 6000, 4090 등)에서 KVServe의 JCT는 최저치를 기록한다. 또한 194번의 BO 이터레이션으로 80 이터레이션 이하에서 수렴하며, 오프라인 프로파일링은 약 50× 효율을 달성한다. 표 1에 제시된 KVServe-Aware는 평균 CR 8.28×, 평균 Rel. Acc 100.35%를 달성하며, Unified는 평균 CR 7.42×, 평균 Rel. Acc 98.20%로 나타난다. 이미지 분석으로는 KVServe가 네트워크 바운더리 의존성을 최소화하고, 압축/해제 오버헤드의 비중을 크게 줄여 네트워크-중심의 지연에서 계산-중심의 지연으로 전환시키는 경향을 보였다.

기술 상세

Phase I: Offline Profiling에서 파이프라인 구성요소를 Transformer/Quantizer/Codec의 모듈로 분해하고, MixHQ를 포함한 다양한 모듈 인스턴스를 통해 구성 공간을 확장한다. Pipeline Abstraction은 BS = C(Q(T(X)))로 표현되며, Transformer 모듈은 Delta/Hadamard/Affine 등의 변환을 포함한다. Quantizer는 다차원 양자화와 레이어-/헤드-기반의 비트폭 배정을 지원하고, Codec은 nvCOMP 기반의 인코딩/디코딩을 수행한다. Bayesian Profiling Engine은 Mixed-Parameter Encoding을 포함하도록 확장된 Heterogeneous-Parameter Encoding을 사용하고, Gaussian Process를 이용한 Acquisition Function으로 다음 평가 후보를 선택한다. Bi-Directional Pruning은 CR-Acc 트레이드오프를 이용해 비공학적 구성을 제거하고 Early-Stopping으로 불필요한 평가를 조기에 중지한다. 3D Pareto Frontier는 Acc-CR-Lat로 투사하여 비지배 포인트만 남긴 표를 런타임에서 Lookup Table로 활용한다. Phase II Online Selection은 Service-Aware Online Controller를 통해 Bandwidth/Latency/Accuracy 입력으로 가장 적합한 프로필을 1-2 단위의 Neighbor 프로필과 함께 선별한다. Residual-Corrected Bandit은 오프라인 모델의 예측치와 런타임 관측치 간의 잔차를 EWMA로 보정해 2-3 후보에 대해 실시간 최적화를 수행한다. Safety Guardrails로 T̂p(c) ≤ T_SLO를 보장하고, Violation cooldown을 적용한다. Phase III Runtime Serving에서 선택된 KV 압축 프로파일(p)로 KV 이동을 실행한다. 수식적으로는 T_p(c) = T_model(w) + V_s_p + V/(B c_r_p)이며, V_p = V/ c_r_p, s_p = (1/s_enc_p + 1/s_dec_p)^{-1}이다. Theorem 6.1은 Bandwidth 임계값 B^*_p를 정의하고, A p. Theorem 6.2는 x=1/B에서의 Lower Envelope에 의해 최적 프로필이 구간별로 결정된다고 주장한다. 이를 바탕으로 온라인에서 O(1) 검색으로 최적 프로필을 찾아내고, Bandit 보정으로 drift를 보완한다.

실무 활용

KVServe는 KV 캐시 압축을 서비스 상태에 적응하도록 설계된 프레임워크다. 오프라인에서 3D Pareto Frontier를 구성하고, 런타임에 서비스 컨텍스트에 따라 최적 프로필을 빠르게 선택하는 방식으로 disaggregated LLM 서빙의 성능과 안정성을 높인다.

PD separation 환경에서 KV 캐시 이동 비용을 줄여 대역폭-제약 상황에서도 높은 처리량을 달성한다.
KV state disaggregation에서 remote KV 풀로의 조회를 최소화하고 TTFT를 단축한다.
RAG/에이전트 워크로드에서 장문 컨텍스트를 다루는 서비스-적응형 KV 압축을 적용한다.
다양한 벤치마크 및 unseen 데이터셋에서도 일반화 가능한 기본 구성(KVServe-Unified) 또는 워크로드 특화 구성(KVServe-Aware)을 선택한다.

코드 공개 여부: 공개

코드 저장소 보기

키워드

KV cache compressionservice-aware KV compressionBayesian Profiling Engine3D Pareto FrontierService-Aware Online ControllerPD separationKV state disaggregation