Retention 보상
앞선-task 정책에 가까운 롤아웃일수록 높은 보상을 주는 트래젝토리 단위 보상으로, Rtask와의 합성으로 총 보상을 구성한다. 이 보상은 보상 기반의 순위 결정에서 드리프트가 큰 롤아웃에 대한 학습 신호를 줄이고, 지식 보존을 강화한다.