이득 조건부 정책
현재 행동이 평균적인 기대치보다 얼마나 더 나은지를 나타내는 이득(Advantage) 신호를 입력 조건으로 받아 행동을 결정하는 방식이다. 이를 통해 로봇은 학습된 경험 중 더 우수한 행동을 선택적으로 수행할 수 있다.