우선순위 경험 재생
학습에 더 중요한 의미를 갖는 경험(예: 예측 오차가 큰 데이터)에 더 높은 확률을 부여하여 샘플링함으로써 학습 효율을 극대화하는 기법이다.
DQN부터 PPO까지, 직접 만든 게임으로 배우는 강화학습 프로젝트
DQN부터 PPO까지, 직접 만든 RL 토이 게임 5종 세트