본문으로 건너뛰기
AI Trends
피드
트렌딩
콜로세움
공지
로그인
피드
트렌딩
콜로세움
공지
어드밴티지 추정 (advantage-estimation) 용어 설명 | AI Trends
advantage-estimation
어드밴티지 추정
고급
특정 행동이 평균적인 기대치보다 얼마나 더 나은 성과를 냈는지 수치화하는 기법이다. 강화학습에서 정책의 업데이트 방향과 크기를 결정하는 결정적인 지표로 사용된다.
비슷한 개념
advantage-re-estimation
advantage-baseline
advantage-function
advantage-conditioned-policy
gae
value-function
a2c
reward-function
← 용어 사전 전체 보기