본문으로 건너뛰기

greedy-policy

탐욕적 정책

입문

미래의 장기적인 영향을 고려하기보다 현재 알고 있는 가치 함수를 기준으로 즉각적인 보상이 가장 큰 행동만을 선택하는 전략이다. 최적 가치 함수에 대해 탐욕적 행동을 취하면 결국 전체 최적 정책에 도달하게 된다.