벡터 정규화
강화학습 환경의 관측값과 보상을 실시간으로 평균과 분산을 계산하여 정규화하는 기법이다. 입력 데이터의 스케일을 일정하게 유지하여 신경망의 학습 안정성을 확보한다.
SB3와 트랜스포머로 만든 포트폴리오 AI, 왜 학습이 안 될까?