본문으로 건너뛰기
AI Trends
피드
트렌딩
탐색
보관함
커뮤니티
로그인
홈
트렌딩
탐색
보관함
프로필
지연 학습 진행 보상 (delayed learning-progress reward) 용어 설명 | AI Trends
delayed learning-progress reward
지연 학습 진행 보상
중급
노출 결정의 효과를 이후 학습 진행으로 평가하는 보상 구조로, REINFORCE 업데이트에 사용된다.
비슷한 개념
retroactive-reinforcement
reinforce-algorithm
reinforce
temporal-credit-assignment
td-learning
dense-reward
progress-reward
reinforcement-pre-training
← 용어 사전 전체 보기