오프로드
VRAM 용량 한계를 극복하기 위해 모델의 일부 가중치나 연산 과정을 상대적으로 여유로운 시스템 RAM(CPU)으로 옮겨서 처리하는 기법이다. 속도는 느려지지만 더 큰 모델을 실행할 수 있게 한다.