megakernel
여러 개의 작은 GPU 연산(Kernel)을 하나의 큰 커널로 묶어서 실행하는 기술이다. 커널 간의 데이터 이동 오버헤드를 줄이고 GPU의 병렬 처리 능력을 더 효율적으로 사용할 수 있게 해준다.
vLLM보다 200% 빠르다? Aleph Alpha의 Alpha-MoE 공개