가치 예측
특정 상태나 행동으로부터 기대할 수 있는 미래 보상의 총합을 신경망이 추론하는 과정이다. 이 예측의 정확도는 RL 알고리즘의 수렴 속도와 최종 성능을 결정짓는 핵심 지표가 된다.