플래시 메모리 추론
모델 가중치 전체를 RAM에 올리지 않고 고속 SSD(Flash Memory)에 저장해 둔 뒤, 추론 시점에 필요한 가중치만 DRAM으로 스트리밍하여 사용하는 방식이다. RAM 용량이 모델 크기보다 작은 환경에서 초거대 모델을 실행할 수 있게 해준다.