mdp
상태, 행동, 보상, 전이 확률을 통해 에이전트의 의사결정 문제를 정형화한 수학적 모델이다. 미래 상태가 오직 현재 상태와 행동에만 의존한다는 마르코프 특성을 가정한다.
왜 PPO는 확률적일까? MDP 최적 정책의 수학적 비밀
복잡한 시그마 기호 대신 벡터 내적으로 이해하는 벨만 방정식
복잡한 벨만 방정식을 4개의 벡터 내적으로 단순화하기