토큰 기반 제한
단순 요청 횟수(RPM)가 아닌 실제 소비되는 입력 및 출력 토큰 양을 기준으로 사용량을 제어하는 방식이다. 모델마다 토큰당 비용과 제한이 다르므로, 에이전트 세션별로 예산을 할당하여 예상치 못한 비용 발생을 정밀하게 차단할 수 있다.