모델 라우팅
작업의 복잡도에 따라 요청을 최적의 모델(경량 모델 또는 고성능 LLM)로 자동 배정하는 기법이다. 단순 작업은 저비용 모델로 처리하여 전체 시스템의 비용 효율성을 극대화한다.