POW3R
루브릭의 기준별 보상 가중치를 정책의 rollout에서의 차등 신호에 맞추어 재가중하는 프레임워크. within-category 분모를 보존하면서 contrastive 기준에 추가 신호를 제공한다.