SGLang
LLM 추론 속도를 극대화하기 위해 설계된 고성능 추론 엔진 및 프로그래밍 언어이다. KV 캐시 관리 최적화와 병렬 처리를 통해 vLLM 대비 높은 처리량을 제공하며, 주로 OpenAI 호환 API 서버 형태로 배포된다.