가중치 스트리밍
모델의 전체 가중치를 RAM에 한꺼번에 올리는 대신, 연산에 필요한 부분만 저장 장치(SD 카드 등)에서 순차적으로 읽어와 처리하는 방식이다. 메모리 용량이 모델 크기보다 훨씬 작은 환경에서 추론을 가능하게 하지만, I/O 병목으로 인해 속도가 매우 느려진다. 극한의 자원 제약 환경에서 AI를 구동하기 위한 핵심 최적화 기법이다.