본문으로 건너뛰기

bellman-optimality-equation

벨만 최적 방정식

중급

현재 상태의 최적 가치를 다음 상태의 최적 가치와 즉각적인 보상의 합으로 표현한 재귀 방정식이다. 모든 상태에서 최대의 기대 보상을 얻기 위한 최적의 의사결정 구조를 정의하며, 강화학습 알고리즘의 이론적 토대가 된다.