지연 시간 백분위수
전체 요청 중 특정 비율의 응답 속도를 나타내는 지표이다. 예를 들어 P99는 하위 1%의 가장 느린 응답 시간을 의미하며, 시스템의 최악의 상황에서의 성능과 사용자 경험의 안정성을 평가하는 데 사용된다.
vLLM 서버 구축이 클릭 한 번으로? 새로운 vLLM Playground 공개