정책 사전 확률
신경망이 특정 상태에서 각 행동이 선택될 가능성을 미리 예측해둔 확률값이다. 탐색 알고리즘이 모든 가능성을 조사하는 대신 높은 확률을 가진 유망한 행동부터 검토하도록 유도하여 탐색 속도를 높인다.