무감독 프로세스 리워드 모델(Unsupervised Process Reward Models, uPRM)

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

PRM은 단계별 추론에 대한 밀도 있는 보상을 제공해 성능을 향상시키나, 단계별 주석과 최종 답안의 정답 여부를 확인하는 레이블링 비용이 큰 단점이다. 본 논문은 ground-truth 레이블 없이 LLM의 next-token 확률을 활용해 첫 오류 위치의 가능성을 점수화하고, 이를 다중 Trajectory에서 공동으로 평가함으로써 무감독으로 PRM을 학습하는 방법(uPRM)을 제시한다. 이를 통해 ProcessBench 등의 에러 위치 식별에서 LLM-as-a-Judge 대비 성능이 향상되며, 테스트 시 스케일링 및 RL에서의 활용성도 입증된다.

왜 중요한가

PRM은 단계별 추론에 대한 밀도 있는 보상을 제공해 성능을 향상시키나, 단계별 주석과 최종 답안의 정답 여부를 확인하는 레이블링 비용이 큰 단점이다. 본 논문은 ground-truth 레이블 없이 LLM의 next-token 확률을 활용해 첫 오류 위치의 가능성을 점수화하고, 이를 다중 Trajectory에서 공동으로 평가함으로써 무감독으로 PRM을 학습하는 방법(uPRM)을 제시한다. 이를 통해 ProcessBench 등의 에러 위치 식별에서 LLM-as-a-Judge 대비 성능이 향상되며, 테스트 시 스케일링 및 RL에서의 활용성도 입증된다.

핵심 기여

무감독 uPRM 제안

first erroneous step의 위치를 판단하기 위해 y1,...,yT 사이의 위치 j에 대해 s(τ, j) = [x, y1, +, ..., yj−1, +, yj, -] 형태의 시퀀스를 구성하고, LLM의 next-token 확률을 이용해 S(j; s)를 계산한다. 다중 Trajectory에 대해 S(j1:N; s1:N)로 조합 점수를 얻고, 이를 PRM 학습의 신호로 활용한다.

다중 Trajectory 공동 평가

N개의 trajectories τn에 대해 jn을 샘플링하고 s(τn, jn)을 연결한 s1:N를 LLM에 입력해 pθ를 기반으로 S(j1:N)를 얻는다. 이는 in-context learning의 이점을 활용해 판단 신뢰성을 높인다.

PRM 학습 방법

rθ(ct|τ≤t)를 LoRA를 적용한 LLM의 마지막 [*] 토큰의 숨겨진 상태로부터 두-layer MLP로 예측하고, log-확률을 이용해 pθ(j|τ)을 정의한다. 엔트로피 정규화 목적의 RL 학습으로 θ를 최적화한다.

추가 기법 및 구현 세부

Scorrection 항을 도입해 degenerate solution을 완화하고 ρ=0.25의 기본값으로 설정한다. 8 GPU(H200)에서 배치당 총 80단계의 학습 신호를 사용해 1000 업데이트를 수행한다.

실험 및 실용적 시사점

ProcessBench에서 LLM-as-a-Judge 대비 Err/ Corr/F1에서 큰 개선을 보인다. 또한 TTS에서 소형 모델의 이득이 크고, RL에서 ground-truth VR과 비교해 향상된 정책 수렴에 기여한다.

핵심 아이디어 이해하기

단계별 추론에서의 정합성 판단은 데이터 라벨링 없이도 가능하다. 이 논문은 (1) 템플릿된 시퀀스 s(τ, j)에서 각 토큰의 다음 토큰 확률을 이용해 first erroneous position의 plausibility를 점수화하고, (2) 여러 트레이젝트리를 묶어 in-context learning의 강점을 활용한 joint score를 얻고, (3) 이 joint score를 RL로 최적화해 PRM을 학습시킨다. 이를 통해 ground-truth 단계 레이블이 없어도 PRM이 학습되며, PRM의 평가 능력이 LLM 자체의 판단 능력을 축적한다.

방법론

수식/개념의 흐름은 아래와 같다. 입력 τ = (x, y1, ..., yT)와 후보 위치 j∈{1,...,T+1}가 주어지면, s(τ, j) = [x, y1, +, ..., yj−1, +, yj, -] (j=T+1이면 모든 step은 +) 형태로 구성한다. LLM이 이 시퀀스에서 '+'와 '-' 다음 토큰의 확률 p+ t, p− t를 출력하도록 하고, S(j; s) = 1[j≤T]·log p−j + Σt<j log p+ t로 정의한다. 다중 trajecotries의 경우 S(j1:N; s1:N) = (1/N) Σn [1[jn≤Tn] log p−n,jn + Σt<jn log p+n,t]이며, in-context 예시로 이전 trajectory의 j와 시퀀스를 함께 사용하여 점수를 계산한다. PRM은 rθ(ct|τ≤t)로 모델링되며, y의 각 [*] 토큰에서의 히든 상태를 MLP로 변환해 ct를 예측한다. 학습은 엔트로피 정규화된 목표와 actor-critic 계열의 그레이디언트 추정기로 수행한다. Scorrection을 도입해 corner 상태를 제한한다. (입력값, 연산, 결과 및 의미를 따라갈 수 있게 기술)

주요 결과

ProcessBench 벤치마크에서 uPRM은 LLM-as-a-Judge에 비해 네 가지 데이터셋에서 F1 점수를 크게 향상시켰다. GSM8K, MATH, OlympiadBench, Omni-MATH에서 각각 +8~+14포인트의 개선을 달성했다. 테스트-타임 스케일링에서 작은 모델의 경우 Best-of-N/DVTS 전략에서 Majority로 대비 6.9%p의 절대 이득을 얻었고, 더 큰 모델에서는 이득이 감소하는 경향을 보였다. RL 설정에서 uPRM은 Ground-truth VR 기반 학습 대비 더 강건한 정책 최적화를 보여주었고, Qwen2.5-Math-1.5B의 경우 VR 대비 평균 약 +4포인트의 성능 향상을 보였다. 또한 RL에서 sPRM은 reward hacking에 더 취약한 반면, uPRM은 RH가 더 늦게 나타나고 비교적 안정적으로 수렴하는 경향을 보였다.

기술 상세

아키텍처: PRM rθ(ct|τ≤t)는 [*] 토큰의 히든 상태에서 2-layer MLP로 ct를 예측하고, pθ(j|τ) 정의는 Eq. (2)와 유사하다. 학습 목표는 엔트로피 정규화된 기대값으로, J(θ) = Eτ Ejn pθ(·|τ) S(j1:N)를 추정하는 표본화된 정책 경사이다. Gm, GN+1, bimm, m(j<m), Vϕ(j<m) 등의 기법으로 actor-critic gradient를 구성하고, Lcritic을 통해 returns를 추정한다. Critic은 history h<m와 future trajectory의 privileged 정보인 g n을 cross-attention으로 결합해 Vϕ를 산출한다. 최적화는 8 GPU에서 1000 gradient updates, LoRA(rank=64, α=32) 기반으로 수행되며, total steps=80을 batch로 구성하는 trajectory packing 전략을 적용한다. "non-corner budget" ρ=0.25의 Scorrection로 degenerate 해를 억제한다.

실무 활용

uPRM은 ground-truth step-label 없이도 PRM을 학습시키고, TTS(verifier) 및 RL에서의 사용성을 보인다. 라벨링 비용을 크게 절감하면서도 기존 supervised PRM과 비견되는 성능을 달성한다.

TTS에서 256 생성에 대한 후보군 평가 및 선택
RL에서 PRM 보상을 이용한 정책 최적화
도메인 특화 문제에 대한 PRM 훈련 신호 대체
대규모 파이프라인에서 자동으로 PRM 피드백 생성

코드 공개 여부: 미확인

키워드

Process Reward Modelsunsupervised trainingnext-token probabilitiesProcessBenchtest-time scalingreinforcement learningpolicy optimizationLoRA