SSD 스트리밍
모델 가중치 전체를 RAM에 올리지 않고, 추론 시 필요한 부분만 SSD에서 실시간으로 읽어오는 기술이다. 하드웨어의 메모리 용량보다 훨씬 큰 모델을 구동할 수 있게 해준다.