전문가 캐싱
MoE 모델에서 자주 사용되거나 곧 사용될 것으로 예상되는 전문가 가중치를 GPU 메모리에 유지하는 기법이다. VRAM이 부족한 환경에서 시스템 메모리로부터 가중치를 다시 읽어오는 시간을 단축하여 추론 속도를 높인다.