bellman-optimality
현재 상태의 최적 가치가 미래 상태의 최적 가치와 즉각적 보상의 합으로 표현된다는 원리이다. 이를 통해 복잡한 문제를 작은 부분 문제로 나누어 해결하는 동적 계획법의 기초가 된다.
왜 PPO는 확률적일까? MDP 최적 정책의 수학적 비밀