결정론적 환경
동일한 상태에서 동일한 행동을 취했을 때 항상 같은 결과가 발생하는 환경이다. 무작위성이 배제되어 이론적으로는 완벽한 예측과 최적 정책 도출이 가능해야 함을 의미한다.
수학적으로 완벽한 환경인데 왜 RL 모델은 80%에서 멈출까요?