reward-function
강화학습에서 에이전트가 수행한 행동의 결과에 대해 점수를 부여하는 기준이다. 에이전트는 이 점수를 최대화하는 방향으로 행동 방침을 수정하며 학습한다.
아무것도 모르는 마리오가 스스로 점프를 배우는 과정