모델 기반
환경의 작동 방식을 예측하는 모델을 먼저 학습한 뒤 이를 이용해 미래를 계획하거나 정책을 개선하는 방식이다. 데이터 효율성이 높지만 모델의 오차가 성능 저하를 유발할 수 있다.