스티키 라우팅
동일한 사용자의 연속된 요청을 이전에 처리했던 특정 서버 인스턴스로 계속 보내는 기술이다. 서버에 남은 캐시 데이터를 재사용할 확률을 높여 성능을 최적화한다.
LLM 추론 지연 시간 62% 단축, AWS LMI의 새로운 캐싱 기술 공개