추론 효율성
동일한 수준의 벤치마크 성능을 달성하기 위해 모델이 소비하는 토큰의 양을 의미한다. 효율성이 높을수록 더 적은 비용과 낮은 지연 시간으로 복잡한 추론을 수행할 수 있으며, 제한된 컨텍스트 윈도우 내에서 더 많은 정보를 처리할 수 있다.