Self-Distilled RLVR (단일 참조 증거)
RLSD는 P+T(yt)/PS(yt) 비율을 샘플링된 토큰에만 적용하고, 이를 이용해 크레딧의 방향은 verifier에 묶어 두되, 어휘 전역 합을 제거해 정보 누수를 차단한다.