tail-latency
시스템 응답 시간 중 가장 느린 상위 퍼센트의 지연 시간이다. 에이전트처럼 여러 단계의 호출이 필요한 시스템에서 전체 사용자 경험을 결정짓는 중요한 성능 지표이다.
GPU 한계 넘었다... 삼바노바, 단일 노드에서 120B 포함 3개 모델 동시 구동