벨만 연산자(bellman-operator)이란 무엇인가요?

Question

Accepted Answer

현재 상태의 가치를 다음 상태의 기대 가치와 보상의 합으로 변환하는 수학적 함수이다. 강화학습의 핵심인 가치 반복과 정책 반복의 기초가 되며 반복 적용 시 최적 가치 함수로 수렴하는 수축 특성을 가진다.

bellman-operator