본문으로 건너뛰기
Rebellious Student: RLRT—RLVR에서 교사 신호를 역방향으로 읽어 추론 탐색을 강화하는 Self-Distilled RLVR | AI Trends