bellman-equation
현재 상태의 가치와 미래 상태 가치 사이의 재귀적 관계를 정의하는 수식으로 강화학습의 이론적 토대이다. 상태 가치 함수나 행동 가치 함수를 업데이트하는 기준이 되며 최적 정책을 찾는 데 필수적이다.
복잡한 시그마 기호 대신 벡터 내적으로 이해하는 벨만 방정식
복잡한 벨만 방정식을 4개의 벡터 내적으로 단순화하기