백업 연산
현재의 가치 함수 추정치를 바탕으로 한 단계 미래를 예측하여 더 정확한 새로운 가치 함수(알파 벡터)를 계산하는 과정이다. 벨만 방정식을 신념 상태 공간으로 확장하여 적용한 형태이다.