본문으로 건너뛰기

advantage-estimation

어드밴티지 추정

고급

특정 행동이 평균적인 기대치보다 얼마나 더 나은 성과를 냈는지 수치화하는 기법이다. 강화학습에서 정책의 업데이트 방향과 크기를 결정하는 결정적인 지표로 사용된다.