정책
강화학습에서 에이전트가 특정 상태(State)에서 어떤 행동(Action)을 취할지 결정하는 매핑 함수이다. 에이전트의 뇌 역할을 하며, 훈련 과정을 통해 기대 보상을 최대화하는 방향으로 최적화된다.
에이전트 강화학습의 고질적 학습 붕괴 문제, SAMPO 알고리즘으로 해결
AI 에이전트는 생각하지 않는다, 보상을 향해 검색할 뿐이다