추론 게이트웨이
사용자의 요청과 실제 AI 모델 추론 엔진 사이에서 트래픽을 관리, 라우팅, 제어하는 중간 계층이다. 인증, 속도 제한(Rate Limiting), 로드 밸런싱 및 본 글에서 제안된 공정성 제어 기능을 수행하여 시스템 안정성을 높인다.