본문으로 건너뛰기
모든 루브릭이 똑같이 가르치지는 않는다: RLVR를 위한 정책 인식 루브릭 보상 POW3R | AI Trends