정책
강화학습에서 에이전트가 특정 상태(State)에서 어떤 행동(Action)을 취할지 결정하는 매핑 함수이다. 에이전트의 뇌 역할을 하며, 훈련 과정을 통해 기대 보상을 최대화하는 방향으로 최적화된다.