초당 출력 토큰 수
모델이 초당 생성해내는 평균 토큰의 개수로, 전체적인 추론 처리량(Throughput)을 나타낸다. 이 수치가 높을수록 동일한 시간 내에 더 많은 텍스트 생성이 가능함을 의미한다.
vLLM과 AWS의 협업: MoE 모델 Multi-LoRA 추론 성능 454% 향상 비결