생성 처리량
모델이 텍스트를 생성하는 속도를 의미하며, 보통 초당 토큰 수(tok/s)로 측정되어 사용자 경험의 쾌적함을 결정한다. 메모리 대역폭이 주된 병목 지점이 되며, 고성능 칩셋일수록 긴 문장을 빠르게 생성할 수 있다.