프리필 속도
모델이 입력을 처음 처리하여 컨텍스트를 생성하는 단계의 속도로 대화의 응답 시작 시간을 결정하는 중요한 지표이다.
Qwen 3.5를 초당 585토큰으로? vLLM과 MTP 최적화 비결 공개