전문가 혼합
전체 네트워크 중 입력 데이터에 적합한 일부 하위 네트워크(전문가)만 선택적으로 활성화하는 구조이다. 연산 효율성을 극대화하면서 모델의 용량을 키울 수 있어 대규모 언어 모델에 주로 사용된다.