시간차 학습
강화학습에서 미래의 보상 예측값과 현재의 보상을 비교하여 가치 함수를 점진적으로 업데이트하는 기법이다. 에이전트가 환경을 끝까지 경험하지 않고도 매 단계마다 학습을 진행할 수 있게 하여 효율적인 정책 수립을 가능하게 한다. 게임의 상태 평가 함수를 자동으로 학습하는 데 핵심적인 역할을 한다.