greedy-policy
탐욕적 정책
미래의 장기적인 영향을 고려하기보다 현재 알고 있는 가치 함수를 기준으로 즉각적인 보상이 가장 큰 행동만을 선택하는 전략이다. 최적 가치 함수에 대해 탐욕적 행동을 취하면 결국 전체 최적 정책에 도달하게 된다.
탐욕적 정책
미래의 장기적인 영향을 고려하기보다 현재 알고 있는 가치 함수를 기준으로 즉각적인 보상이 가장 큰 행동만을 선택하는 전략이다. 최적 가치 함수에 대해 탐욕적 행동을 취하면 결국 전체 최적 정책에 도달하게 된다.