RLRT
RLVR에서 교사의 신호를 역방향으로 읽는 RLRT( RLVR with Reversed Teacher ) 알고리즘으로, 성공 롤아웃에서 학생이 교사와 다르게 선택한 토큰을 증폭하는 탐색 신호를 제공한다.