모델 계층 구조
성능과 비용이 다른 여러 AI 모델을 계층적으로 배치하여 작업을 분담하는 설계 방식이다. 복잡한 추론은 고성능 모델이 담당하고 단순 반복 작업은 경량 모델이 처리함으로써 전체 시스템의 효율성을 극대화한다.