bellman-optimality-equation
현재 상태의 최적 가치를 다음 상태의 최적 가치와 즉각적인 보상의 합으로 표현한 재귀 방정식이다. 모든 상태에서 최대의 기대 보상을 얻기 위한 최적의 의사결정 구조를 정의하며, 강화학습 알고리즘의 이론적 토대가 된다.
현재 상태의 최적 가치를 다음 상태의 최적 가치와 즉각적인 보상의 합으로 표현한 재귀 방정식이다. 모든 상태에서 최대의 기대 보상을 얻기 위한 최적의 의사결정 구조를 정의하며, 강화학습 알고리즘의 이론적 토대가 된다.