토큰 생성 속도
모델이 답변을 한 글자(토큰)씩 생성해내는 속도이다. 실제 사용자가 화면에서 답변이 출력되는 속도를 체감하는 지표이다.
CPU 추론 5배 가속? ik_llama.cpp와 Qwen 3.5의 놀라운 조합
5060 Ti에서 Gemma 2 27B 구동: IQ2_M 양자화로 코딩 실력까지 잡았다