REINFORCE 알고리즘
몬테카를로 방식의 정책 경사법으로, 에피소드가 끝날 때까지의 실제 누적 보상을 사용하여 정책을 업데이트한다. 구현이 간단하고 편향이 없지만, 샘플링에 따른 분산이 매우 크다는 특징이 있다.