추론 게이트웨이
사용자의 요청과 실제 AI 모델 추론 엔진 사이에서 트래픽을 관리, 라우팅, 제어하는 중간 계층이다. 인증, 속도 제한(Rate Limiting), 로드 밸런싱 및 본 글에서 제안된 공정성 제어 기능을 수행하여 시스템 안정성을 높인다.
vLLM 성능 저하의 주범, 노이지 네이버 문제를 해결하는 트래픽 제어 게이트웨이
vLLM 성능 저하의 주범 '시끄러운 이웃' 문제를 해결하는 페어니스 게이트웨이