본문으로 건너뛰기

advantage-baseline

어드밴티지 베이스라인

고급

정책 경사의 분산을 줄이기 위해 사용되는 기준값으로, 현재 행동이 평균적인 기대치보다 얼마나 더 나은지를 계산하는 데 활용됩니다.