가중치 스트리밍(weight-streaming)이란 무엇인가요?

Question

Accepted Answer

모델의 전체 가중치를 RAM에 한꺼번에 올리는 대신, 연산에 필요한 부분만 저장 장치(SD 카드 등)에서 순차적으로 읽어와 처리하는 방식이다. 메모리 용량이 모델 크기보다 훨씬 작은 환경에서 추론을 가능하게 하지만, I/O 병목으로 인해 속도가 매우 느려진다. 극한의 자원 제약 환경에서 AI를 구동하기 위한 핵심 최적화 기법이다.

weight-streaming

비슷한 개념