Rereading-Adaptive GRPO
Rereading-Adaptive Outcome Advantage와 GRPO를 결합한 학습 전략으로, 경우에 따라 rereading 횟수를 적응적으로 조절한다.