로컬 우선 메모리
로컬 우선 메모리는 가능한 질의를 사용자의 로컬 메모리(예: RAM에 상주하는 상태)에서 처리하는 아키텍처로서 응답을 로컬 모델로 우선 생성하고, 필요한 경우에만 외부 고성능 모델로 요청을 위임하는 방식이다. 이 방식은 빈번한 반복 질의를 로컬에서 처리해 지연과 비용을 낮추고 민감 데이터를 외부로 전송하지 않는 장점이 있다. 시스템 설계상 로컬 모델의 메모리 관리와 에스컬레이션 조건이 성능과 비용 절감 효과를 결정한다.