추론 라우팅
여러 AI 모델 중 성능, 비용, 지연 시간 등 설정된 조건에 따라 가장 적합한 모델로 요청을 전달하는 기술이다. 특정 모델의 장애 발생 시 자동으로 다른 모델로 전환하는 페일오버 기능을 포함하여 시스템의 안정성을 보장한다.