해밀턴-야코비-벨만 편미분 방정식
연속 시간 및 연속 상태 공간에서의 최적 제어 문제를 해결하기 위한 기본 방정식이다. 이 방정식의 해는 최적 가치 함수를 나타내며, 이산화된 강화학습 알고리즘이 이론적으로 최적해에 수렴함을 증명하는 근거가 된다.