초당 토큰 수
언어 모델의 추론 속도를 측정하는 단위로, 1초에 생성되는 텍스트 단위(토큰)의 개수를 의미한다. 일반적으로 10-15 t/s 정도면 사람이 읽는 속도와 비슷하여 실사용이 가능하다.
리눅스 전환으로 속도 50% 향상, llama.cpp 업데이트로 도구 호출 오류 해결
엔비디아 DGX 스파크 700달러 기습 인상, 로컬 LLM 하드웨어 시장 요동
CLI는 100t/s인데 서버는 10t/s? llama.cpp 성능 미스터리
RTX 3090에서 초당 100토큰으로 이미지 속 반지를 찾아내는 Qwen-35B
7년 전 갤럭시 S10E에서 AI가? 초소형 Qwen 모델의 놀라운 성능