전문가 스트리밍
모델 전체를 RAM에 올리는 대신, 각 토큰을 처리할 때 필요한 전문가 가중치만을 SSD에서 실시간으로 불러와 실행하는 기법이다. 하드웨어의 메모리 용량 한계를 저장 장치의 공간으로 극복하여 초거대 모델을 구동하게 한다.