정책
에이전트가 특정 상태에서 어떤 행동을 취할지를 결정하는 매핑 함수이다. 결정론적 환경에서의 경로 찾기와 달리, 불확실성이 존재하는 MDP에서는 모든 가능한 상태에 대한 행동 지침인 정책을 수립하는 것이 핵심이다.