라우팅 가중치 붕괴
여러 전문가 모델을 섞어 쓸 때, 학습 과정에서 특정 전문가 하나에만 가중치가 쏠려 나머지 전문가들이 전혀 활용되지 못하는 현상이다. 이로 인해 다중 모델을 사용하는 이점이 사라지고 단일 모델과 다를 바 없는 성능을 내게 된다.