expert-parallelism
MoE(Mixture of Experts) 구조에서 각 전문가(Expert)를 여러 GPU에 분산 배치하는 방식이다. 모든 전문가를 복제하는 대신 특정 GPU가 특정 전문가를 전담하게 하여 메모리 효율성을 높인다.
MoE(Mixture of Experts) 구조에서 각 전문가(Expert)를 여러 GPU에 분산 배치하는 방식이다. 모든 전문가를 복제하는 대신 특정 GPU가 특정 전문가를 전담하게 하여 메모리 효율성을 높인다.