DeepEP
DeepEP는 전문가 라우팅과 토큰 디스패치를 통합된 GPU 커널로 융합해 통신과 계산을 겹치게 실행함으로써 AllGather/ReduceScatter 단계에서 발생하는 대기 시간을 줄이고 MoE 처리량을 높이는 최적화 계층이다.