토큰 처리량
언어 모델이 단위 시간당 생성하거나 처리할 수 있는 토큰의 양이다. AI 서비스의 응답 속도와 동시 사용자 수용 능력을 결정하는 주요 성능 지표이다.
학습보다 추론이 중요한 시대, GPU 비용 80% 절감하는 AI 운영 전략