qps
시스템이 1초 동안 처리할 수 있는 검색 요청의 개수이다. 시스템의 처리량(Throughput)을 나타내는 핵심 지표로, 높을수록 많은 사용자의 요청을 동시에 처리할 수 있다.
Together AI의 CPD: 긴 컨텍스트 추론 처리량 40% 향상
14억 개 벡터도 26ms 만에 처리하는 Pinecone 전용 읽기 노드 출시