클러스터 기반 라우팅
쿼리 임베딩을 k-means로 군집화하여 각 군집 단위로 가장 비용-효율적인 모델을 미리 할당하는 방식으로, 단일 쿼리마다 모델을 호출하지 않고 클러스터 수준에서 비용-정확도 균형을 달성한다.