초당 토큰 생성량
모델이 답변을 한 글자씩 생성해내는 실제 출력 속도를 의미한다. 사용자가 체감하는 답변 속도와 직결되며, 하드웨어의 스로틀링이나 소프트웨어 최적화 상태에 따라 변동폭이 크다.