정책 인식 루브릭 보상
루브릭의 각 평가 항목에 인간이 부여한 가중치를 유지하되, 학습 신호로써 현재 모델이 어떤 기준을 더 잘 구분하는가에 따라 보상 가중치를 동적으로 재조정하는 아이디어를 말한다.