벨만 방정식
현재 상태의 가치와 미래 상태 가치 사이의 재귀적 관계를 정의하는 수식으로 강화학습의 이론적 토대이다. 상태 가치 함수나 행동 가치 함수를 업데이트하는 기준이 되며 최적 정책을 찾는 데 필수적이다.