리인포스 알고리즘
강화학습에서 정책 경사(Policy Gradient)를 계산하는 가장 기본적인 알고리즘이다. 특정 행동의 결과로 얻은 보상이 크면 해당 행동의 발생 확률을 높이고, 보상이 작으면 낮추는 방식으로 모델을 학습시킨다.