암묵적 보상
명시적 보상 모델을 학습하지 않고 정책의 로그확률이나 그 비율로부터 유도한 보상 신호를 의미한다. deterministic 환경에서는 로그확률비가 직접 보상으로 재매개변수화될 수 있었으나 논문은 stochastic 환경에서 그 차이가 잔차로 남음을 보였다. 따라서 논문은 보상 대신 어드밴티지를 목표로 하는 접근을 채택했다.