본문으로 건너뛰기
[R] CS-MoE: 트랜스포머의 심각한 파라미터 중복을 발견하고 레이어 간 전문가 공유로 해결 (55% 활성화로 Dense 모델 능가) | AI Trends