무감독 학습으로 PRM 학습의 스케일링 가능성 입증
PRM은 단계별 추론에 대한 밀도 있는 보상을 제공해 성능을 향상시키나, 단계별 주석과 최종 답안의 정답 여부를 확인하는 레이블링 비용이 큰 단점이다. 본 논문은 ground-truth 레이블 없이 LLM의 next-token 확률을 활용해 첫 오류 위치의 가능성을 점수화하고, 이를 다중 Trajectory에서 공동으로 평가함으로써 무감독으로 PRM을 학습하는 방법(uPRM)을 제시한다. 이를 통해 ProcessBench 등의 에러 위치 식별에서 LLM-as-a-Judge 대비 성능이 향상되며, 테스트 시 스케일링 및 RL에서의 활용성도 입증된다.