stochastic-policy
특정 상태에서 가능한 각 행동에 대해 선택 확률을 할당하는 방식이다. 학습 초기 단계에서 다양한 경로를 탐색하거나 미분 가능한 목적 함수를 설계할 때 유리하다.
왜 PPO는 확률적일까? MDP 최적 정책의 수학적 비밀