라우팅 드리프트
MoE 구조에서 새로운 전문가가 추가될 때, 기존 데이터를 처리하던 라우터의 정책이 변하여 토큰이 엉뚱한 전문가에게 배정되는 현상이다. 이는 이전 작업의 성능을 급격히 떨어뜨리는 원인이 된다.