본문으로 건너뛰기
advantage-baseline
어드밴티지 베이스라인
고급
정책 경사의 분산을 줄이기 위해 사용되는 기준값으로, 현재 행동이 평균적인 기대치보다 얼마나 더 나은지를 계산하는 데 활용됩니다.
비슷한 개념
advantage-estimation
advantage-re-estimation
advantage-function
baseline
advantage-conditioned-policy
gae
reinforce
reward-variance
← 용어 사전 전체 보기
AI Trends
피드
트렌딩
커뮤니티
공지
로그인
피드
트렌딩
커뮤니티
공지