P95 지연 시간
전체 요청 중 가장 느린 상위 5%를 제외한 나머지 95%의 요청이 완료되는 데 걸리는 시간이다. 평균보다 사용자 경험의 하한선을 파악하는 데 더 중요한 지표로 쓰인다.
초당 1,000토큰 돌파! 디퓨전 기술로 LLM 추론 속도 5배 높인 Mercury 2 출시
AI 에이전트 공격 양상 급변: 도구 남용과 목표 하이재킹 급증
Mem0, OpenAI Memory보다 정확도 14%p 높고 1.4초 응답 속도 기록