starvation
운영체제나 네트워크에서 특정 프로세스나 요청이 자원을 할당받지 못하고 무한정 대기하는 상태이다. LLM 추론에서는 대규모 요청이 GPU 자원을 독점할 때 발생하며 서비스 품질을 저하시킨다.
vLLM 성능 저하의 주범, 노이지 네이버 문제를 해결하는 트래픽 제어 게이트웨이
vLLM 성능 저하의 주범 '시끄러운 이웃' 문제를 해결하는 페어니스 게이트웨이