그룹화된 행렬 곱셈
서로 다른 크기나 형태를 가진 여러 행렬 곱셈 연산을 하나의 GPU 커널에서 묶어서 처리하여 연산 효율을 높이는 최적화 기법이다.
DeepSeek-R1급 MoE 모델을 Transformers에서 6배 더 빠르게