critic
Actor-Critic 구조에서 에이전트가 취한 행동의 가치를 평가하는 역할을 한다. 상태 가치 함수를 학습하여 정책(Actor)이 더 나은 방향으로 업데이트되도록 가이드한다.
수학적으로 완벽한 환경인데 왜 RL 모델은 80%에서 멈출까요?