초당 토큰 생성 수
LLM이 1초에 생성하는 텍스트의 양을 나타내는 속도 지표이다. 사용자 경험에 직접적인 영향을 미치며, 수치가 높을수록 응답이 빠르다.
RTX 5090에서 확인한 Qwen3.5의 반전: 속도는 느리지만 긴 문맥에 강하다