라우터
입력 토큰의 특징을 분석해 가장 적합한 전문가 네트워크로 전달하는 게이트웨이 역할을 한다. 학습 가능한 파라미터로 구성되며 모델의 효율적인 연산 분배를 결정하는 핵심 요소이다.