sparse-moe
전체 파라미터 중 일부(전문가)만 선택적으로 활성화하여 추론하는 방식으로, 모델의 용량은 키우면서 실제 연산 비용은 낮게 유지하는 기법이다.
NVIDIA의 새로운 3B 추론 모델, Together AI에서 에이전트 성능 극대화