greedy-policy
미래의 장기적인 영향을 고려하기보다 현재 알고 있는 가치 함수를 기준으로 즉각적인 보상이 가장 큰 행동만을 선택하는 전략이다. 최적 가치 함수에 대해 탐욕적 행동을 취하면 결국 전체 최적 정책에 도달하게 된다.
강화학습의 핵심 증명: 왜 그리디 정책이 항상 최적인가?