모델 프리
환경의 동역학(전이 확률)을 모델링하지 않고 직접적인 경험을 통해 가치 함수나 정책을 학습하는 방식이다. 복잡한 환경에서도 유연하게 적용 가능하며 Q-Learning이나 PPO 등이 대표적이다.