이동 통계량
전체 데이터를 한 번에 처리하지 않고 데이터가 들어오는 순서대로 평균과 분산을 실시간으로 업데이트하는 방식이다. 강화학습처럼 데이터 분포가 계속 변하는 온라인 학습 환경에서 정규화 파라미터를 유지하기 위해 필수적이다.
Z-score 정규화 후 성능 급락? 강화학습 입력 데이터 스케일링의 함정