시간차 에러
현재 상태의 가치 예측치와 실제 관찰된 보상 및 다음 상태의 가치 예측치 합 사이의 차이를 의미한다. 가치 기반 강화학습에서 모델의 예측을 수정하는 핵심 지표로 사용된다.