추론 병목 현상
AI 모델의 사용량이 급증하면서 모델을 실행(추론)하는 데 필요한 컴퓨팅 자원이 부족해지는 현상이다. 이는 서비스 속도 저하나 성능 저하로 이어지며 최근 에이전트 기반 작업이 늘어나면서 더욱 심화되고 있다.