마르코프 결정 과정
상태, 행동, 보상, 전이 확률을 통해 에이전트의 의사결정 문제를 정형화한 수학적 모델이다. 미래 상태가 오직 현재 상태와 행동에만 의존한다는 마르코프 특성을 가정한다.