디코드 속도
언어 모델이 첫 번째 토큰을 생성한 이후 후속 토큰들을 생성하여 사용자에게 전달하는 속도이다. 초당 토큰 수(tokens/second)로 측정하며, 실시간 채팅 서비스의 응답성을 결정하는 핵심 지표이다.