본문으로 건너뛰기

policy-iteration

정책 반복

중급

강화학습에서 최적 정책을 찾기 위해 현재 정책을 평가하고 개선하는 과정을 반복하는 알고리즘이다. 이 게시물에서는 신경망 대신 그리드 기반의 동적 계획법을 사용하여 연속적인 상태 공간에서 최적의 가치 함수를 도출하는 데 사용됐다.