본문으로 건너뛰기
advantage-estimation
어드밴티지 추정
고급
특정 행동이 평균적인 기대치보다 얼마나 더 나은 성과를 냈는지 수치화하는 기법이다. 강화학습에서 정책의 업데이트 방향과 크기를 결정하는 결정적인 지표로 사용된다.
비슷한 개념
advantage-re-estimation
advantage-baseline
advantage-function
advantage-conditioned-policy
gae
value-function
a2c
td-error
← 용어 사전 전체 보기
AI Trends
피드
트렌딩
커뮤니티
공지
로그인
피드
트렌딩
커뮤니티
공지