초당 토큰 처리량
언어 모델이 1초 동안 생성하거나 처리하는 텍스트 단위(토큰)의 개수이다. AI 모델의 추론 속도를 측정하는 가장 핵심적인 지표로, 수치가 높을수록 더 많은 사용자에게 빠른 응답을 제공할 수 있다.
Qwen 3.5 벤치마크: 9B 모델이 4B보다 빠른 성능 절벽 확인
6000달러 서버급 성능을 600달러 미니 PC에서? 로컬 LLM의 진화
GPU는 비효율적이다? 모델을 칩에 직접 구워 17,000 TPS 구현한 타라스의 혁신