가치 예측
특정 상태나 행동으로부터 기대할 수 있는 미래 보상의 총합을 신경망이 추론하는 과정이다. 이 예측의 정확도는 RL 알고리즘의 수렴 속도와 최종 성능을 결정짓는 핵심 지표가 된다.
수학적으로 완벽한 환경인데 왜 RL 모델은 80%에서 멈출까요?