사용량 제한 최적화
고성능 모델의 호출 횟수나 토큰 사용량을 줄여 비용을 절감하고 할당된 쿼터 내에서 더 많은 작업을 수행하는 기법이다. 저렴한 모델에 단순 반복 작업을 위임함으로써 고가 모델의 자원을 핵심 설계와 검토에 집중시킨다.