paged-attention
운영체제의 가상 메모리 관리 기법을 LLM의 KV 캐시에 적용한 기술이다. 메모리를 불연속적인 페이지 단위로 할당하여 파편화를 방지하고 GPU 메모리 활용도를 극대화한다.
응답 속도 45초에서 10초로 줄인 LLM 서빙 병목 해결기
LLM 추론 속도와 효율의 정점, vLLM으로 서버 비용 절감하기