모델 티어링
작업의 복잡도에 따라 서로 다른 성능과 비용을 가진 모델을 전략적으로 배치하는 기법이다. 고비용 모델은 기획에, 저비용 모델은 단순 실행에 할당하여 전체적인 추론 비용과 자원을 최적화한다.