희소 아키텍처
모든 뉴런이 연산에 참여하는 밀집 구조와 달리, 특정 조건에 맞는 일부 경로만 활성화하여 계산 자원을 절약하는 모델 구조이다.
DeepSeek-R1급 MoE 모델을 Transformers에서 6배 더 빠르게