온폴리시 최적화
현재 학습 중인 정책이 직접 생성한 데이터만을 사용하여 모델을 업데이트하는 방식이다. 데이터의 신뢰도는 높지만 샘플 활용 효율이 낮아 학습 비용이 많이 발생하는 단점이 있다.