bellman-operator
현재 상태의 가치를 다음 상태의 기대 가치와 보상의 합으로 변환하는 수학적 함수이다. 강화학습의 핵심인 가치 반복과 정책 반복의 기초가 되며 반복 적용 시 최적 가치 함수로 수렴하는 수축 특성을 가진다.
강화학습 성능을 결정짓는 정규화의 수학적 원리와 알고리즘