스플릿-K 전략
행렬 곱셈 연산 시 내적(Inner product) 차원인 K를 여러 조각으로 나누어 여러 스레드 그룹이 병렬로 부분합을 계산하게 하는 기법이다. LoRA와 같이 한쪽 차원이 매우 작은 가느다란 행렬 연산에서 병렬성을 극대화하는 데 필수적이다.
vLLM과 AWS의 협업: MoE 모델 Multi-LoRA 추론 성능 454% 향상 비결