시간적 신용 할당
강화학습에서 에이전트가 받은 보상이 과거의 어떤 행동 때문에 발생했는지 결정하는 메커니즘이다. 보상이 지연되어 나타나는 환경에서 특정 행동의 기여도를 정확히 평가하여 학습 효율을 높이는 데 필수적이다.