보상 체계
강화학습 에이전트가 특정 행동을 했을 때 환경으로부터 받는 수치적 피드백이다. 에이전트는 누적 보상을 최대화하는 방향으로 학습하므로, 보상 함수의 설계는 AI의 최종 행동 양식을 결정하는 가장 중요한 요소이다.