시간차 오차
현재 상태의 가치 추정치와 실제 보상 및 다음 상태의 가치 추정치 합 사이의 차이를 의미한다. 강화학습 모델이 현재 예측을 얼마나 수정해야 하는지 결정하는 핵심 지표로 활용된다.