p99-latency
전체 요청 중 가장 느린 1%의 응답 시간을 의미한다. 평균적인 성능뿐만 아니라 최악의 경우에도 시스템이 얼마나 안정적으로 반응하는지 평가하는 중요한 척도이다.
우리 회사에 꼭 필요한 AI 유즈케이스, 어떻게 찾을까?
14억 개 벡터도 26ms 만에 처리하는 Pinecone 전용 읽기 노드 출시