본문으로 건너뛰기

reward-function

보상 함수

중급

강화학습에서 에이전트가 수행한 행동의 결과에 대해 점수를 부여하는 기준이다. 에이전트는 이 점수를 최대화하는 방향으로 행동 방침을 수정하며 학습한다.