TL;DR
PRM은 단계별 추론에 대한 밀도 있는 보상을 제공해 성능을 향상시키나, 단계별 주석과 최종 답안의 정답 여부를 확인하는 레이블링 비용이 큰 단점이다. 본 논문은 ground-truth 레이블 없이 LLM의 next-token 확률을 활용해 첫 오류 위치의 가능성을 점수화하고, 이를 다중 Trajectory에서 공동으로 평가함으로써 무감독으로 PRM을 학습하는 방법(uPRM)을 제시한다. 이를 통해 ProcessBench 등의 에러 위치 식별에서 LLM-as-a-Judge 대비 성능이 향상되며, 테스트 시 스케일링 및 RL에서의 활용성도 입증된다.
왜 중요한가
PRM은 단계별 추론에 대한 밀도 있는 보상을 제공해 성능을 향상시키나, 단계별 주석과 최종 답안의 정답 여부를 확인하는 레이블링 비용이 큰 단점이다. 본 논문은 ground-truth 레이블 없이 LLM의 next-token 확률을 활용해 첫 오류 위치의 가능성을 점수화하고, 이를 다중 Trajectory에서 공동으로 평가함으로써 무감독으로 PRM을 학습하는 방법(uPRM)을 제시한다. 이를 통해 ProcessBench 등의 에러 위치 식별에서 LLM-as-a-Judge 대비 성능이 향상되며, 테스트 시 스케일링 및 RL에서의 활용성도 입증된다.
핵심 기여
무감독 uPRM 제안
first erroneous step의 위치를 판단하기 위해 y1,...,yT 사이의 위치 j에 대해 s(τ, j) = [x, y1, +, ..., yj−1, +, yj, -] 형태의 시퀀스를 구성하고, LLM의 next-token 확률을 이용해 S(j; s)를 계산한다. 다중 Trajectory에 대해 S(j1:N; s1:N)로 조합 점수를 얻고, 이를 PRM 학습의 신호로 활용한다.
다중 Trajectory 공동 평가
N개의 trajectories τn에 대해 jn을 샘플링하고 s(τn, jn)을 연결한 s1:N를 LLM에 입력해 pθ를 기반으로 S(j1:N)를 얻는다. 이는 in-context learning의 이점을 활용해 판단 신뢰성을 높인다.
PRM 학습 방법
rθ(ct|τ≤t)를 LoRA를 적용한 LLM의 마지막 [*] 토큰의 숨겨진 상태로부터 두-layer MLP로 예측하고, log-확률을 이용해 pθ(j|τ)을 정의한다. 엔트로피 정규화 목적의 RL 학습으로 θ를 최적화한다.
추가 기법 및 구현 세부
Scorrection 항을 도입해 degenerate solution을 완화하고 ρ=0.25의 기본값으로 설정한다. 8 GPU(H200)에서 배치당 총 80단계의 학습 신호를 사용해 1000 업데이트를 수행한다.
실험 및 실용적 시사점
ProcessBench에서 LLM-as-a-Judge 대비 Err/ Corr/F1에서 큰 개선을 보인다. 또한 TTS에서 소형 모델의 이득이 크고, RL에서 ground-truth VR과 비교해 향상된 정책 수렴에 기여한다.
핵심 아이디어 이해하기
단계별 추론에서의 정합성 판단은 데이터 라벨링 없이도 가능하다. 이 논문은 (1) 템플릿된 시퀀스 s(τ, j)에서 각 토큰의 다음 토큰 확률을 이용해 first erroneous position의 plausibility를 점수화하고, (2) 여러 트레이젝트리를 묶어 in-context learning의 강점을 활용한 joint score를 얻고, (3) 이 joint score를 RL로 최적화해 PRM을 학습시킨다. 이를 통해 ground-truth 단계 레이블이 없어도 PRM이 학습되며, PRM의 평가 능력이 LLM 자체의 판단 능력을 축적한다.
방법론
수식/개념의 흐름은 아래와 같다. 입력 τ = (x, y1, ..., yT)와 후보 위치 j∈{1,...,T+1}가 주어지면, s(τ, j) = [x, y1, +, ..., yj−1, +, yj, -] (j=T+1이면 모든 step은 +) 형태로 구성한다. LLM이 이 시퀀스에서 '+'와 '-' 다음 토큰의 확률 p+ t, p− t를 출력하도록 하고, S(j; s) = 1[j≤T]·log p−j + Σt<j log p+ t로 정의한다. 다중 trajecotries의 경우 S(j1:N; s1:N) = (1/N) Σn [1[jn≤Tn] log p−n,jn + Σt<jn log p+n,t]이며, in-context 예시로 이전 trajectory의 j와 시퀀스를 함께 사용하여 점수를 계산한다. PRM은 rθ(ct|τ≤t)로 모델링되며, y의 각 [*] 토큰에서의 히든 상태를 MLP로 변환해 ct를 예측한다. 학습은 엔트로피 정규화된 목표와 actor-critic 계열의 그레이디언트 추정기로 수행한다. Scorrection을 도입해 corner 상태를 제한한다. (입력값, 연산, 결과 및 의미를 따라갈 수 있게 기술)
관련 Figure

Entropy(엔트로피)와 F1의 변화를 ρ 값에 따라 비교하여, γ(또는 엔트로피 정규화)의 적정치를 3으로 설정하는 근거를 제공한다.
엔트로피와 F1에 대한 ρ 값에 따른 ablation 그래프 두 개를 포함하는 도표.
주요 결과
ProcessBench 벤치마크에서 uPRM은 LLM-as-a-Judge에 비해 네 가지 데이터셋에서 F1 점수를 크게 향상시켰다. GSM8K, MATH, OlympiadBench, Omni-MATH에서 각각 +8~+14포인트의 개선을 달성했다. 테스트-타임 스케일링에서 작은 모델의 경우 Best-of-N/DVTS 전략에서 Majority로 대비 6.9%p의 절대 이득을 얻었고, 더 큰 모델에서는 이득이 감소하는 경향을 보였다. RL 설정에서 uPRM은 Ground-truth VR 기반 학습 대비 더 강건한 정책 최적화를 보여주었고, Qwen2.5-Math-1.5B의 경우 VR 대비 평균 약 +4포인트의 성능 향상을 보였다. 또한 RL에서 sPRM은 reward hacking에 더 취약한 반면, uPRM은 RH가 더 늦게 나타나고 비교적 안정적으로 수렴하는 경향을 보였다.
관련 Figure

해당 그림은 uPRM이 다양한 샘플링 전략에서 성능 향상을 이끌 수 있음을 시각적으로 증명하며, 소형 모델일수록 이득이 큰 경향을 시사한다.
ProcessBench 평가의 다중 패널 차트로 Best-of-N, Majority, DVTS의 비교를 보여준다.

uPRM과 sPRM의 RH 특성 차이를 시각적으로 보여주며, uPRM이 RH를 더 늦게 시작하고 정책이 비교적 안정적으로 수렴함을 시사한다.
RL 훈련(seed1)에서 PRM reward, 응답 길이, KL 대비 정책의 변화 그래프(세 가지 시드 중 하나).

다중 시드에서의 RH 패턴과 PRM 보상의 상관관계를 비교하며, uPRM이 RH를 더 안정적으로 관리하는 경향을 보인다.
훈련 실행(seed2/seed3)의 다중 시드 결과를 나란히 보여주는 그래프 묶음.
기술 상세
아키텍처: PRM rθ(ct|τ≤t)는 [*] 토큰의 히든 상태에서 2-layer MLP로 ct를 예측하고, pθ(j|τ) 정의는 Eq. (2)와 유사하다. 학습 목표는 엔트로피 정규화된 기대값으로, J(θ) = Eτ Ejn pθ(·|τ) S(j1:N)를 추정하는 표본화된 정책 경사이다. Gm, GN+1, bimm, m(j<m), Vϕ(j<m) 등의 기법으로 actor-critic gradient를 구성하고, Lcritic을 통해 returns를 추정한다. Critic은 history h<m와 future trajectory의 privileged 정보인 g n을 cross-attention으로 결합해 Vϕ를 산출한다. 최적화는 8 GPU에서 1000 gradient updates, LoRA(rank=64, α=32) 기반으로 수행되며, total steps=80을 batch로 구성하는 trajectory packing 전략을 적용한다. "non-corner budget" ρ=0.25의 Scorrection로 degenerate 해를 억제한다.
실무 활용
uPRM은 ground-truth step-label 없이도 PRM을 학습시키고, TTS(verifier) 및 RL에서의 사용성을 보인다. 라벨링 비용을 크게 절감하면서도 기존 supervised PRM과 비견되는 성능을 달성한다.
- TTS에서 256 생성에 대한 후보군 평가 및 선택
- RL에서 PRM 보상을 이용한 정책 최적화
- 도메인 특화 문제에 대한 PRM 훈련 신호 대체
- 대규모 파이프라인에서 자동으로 PRM 피드백 생성
코드 공개 여부: 미확인
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.