유효 크기
MoE 모델의 연산 효율을 일반 밀집(Dense) 모델과 비교하기 위해 산출한 가상의 파라미터 규모이다. 본문에서는 전체와 활성 파라미터의 기하평균을 통해 이를 정의했다.