vLLM
대규모 언어 모델의 추론 속도를 극대화하기 위해 설계된 고성능 오픈소스 라이브러리다. PagedAttention 기술을 통해 메모리 효율을 높여 처리량을 획기적으로 개선한다.