KV 블록 관리자
GPU 메모리(HBM)가 부족할 때 KV 캐시를 CPU DRAM이나 NVMe SSD로 옮겨 저장하는 계층형 스토리지 관리 시스템이다. 이를 통해 GPU 메모리 용량을 초과하는 긴 컨텍스트를 재계산 없이 효율적으로 처리할 수 있게 한다.