우선순위 경험 재현
에이전트가 학습 중 겪은 경험 중 TD 오차가 큰 중요한 샘플에 더 높은 확률을 부여하여 학습 효율을 높이는 기법이다. 무작위 샘플링 대신 학습에 더 도움이 되는 데이터를 선별하여 수렴 속도를 높이는 역할을 한다.