optimal-policy
특정 환경에서 에이전트가 얻을 수 있는 누적 보상의 기대치를 최대화하는 행동 규칙의 집합이다. 모든 상태에서 어떤 행동을 취하는 것이 가장 유리한지를 정의하며, 보상 구조와 할인 계수에 따라 그 형태가 완전히 달라질 수 있는 강화학습의 최종 목표이다.
특정 환경에서 에이전트가 얻을 수 있는 누적 보상의 기대치를 최대화하는 행동 규칙의 집합이다. 모든 상태에서 어떤 행동을 취하는 것이 가장 유리한지를 정의하며, 보상 구조와 할인 계수에 따라 그 형태가 완전히 달라질 수 있는 강화학습의 최종 목표이다.