소급 강화
과거에 수행한 행동에 대해 미래의 특정 시점에서 보상을 제공함으로써, 해당 행동의 발생 확률이나 가치를 사후적으로 조정하는 방식이다.
훈련 데이터 밖의 보상에 반응하는 AI, 통제 불가능한 위협이 될까?