temporal-difference-learning
미래 상태의 가치 추정치를 바탕으로 현재 상태의 가치를 업데이트하는 강화학습의 핵심 학습 방식이다. 벨만 방정식을 기반으로 실제 보상과 추정치 사이의 오차를 줄여나가는 과정을 거친다.
복잡한 시그마 기호 대신 벡터 내적으로 이해하는 벨만 방정식