BETAPRM: Monte Carlo 컨티뉴에이션으로 학습된 신뢰도 신호를 갖춘 Beta-Binomial 기반 Process Reward Model

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

프롬프트 기반 추론에서 각 프리픽스의 보상은 불확실성을 내포한다. BETAPRM은 prefix 수준의 성공 확률과 학습된 신뢰도 신호를 함께 예측해 신뢰성 있는 보상은 조기에 반영하고, 불확실한 프리픽스에는 추가 계산을 배정한다. 이를 통해 더 적은 토큰으로도 더 나은 최종 정답 정확도를 달성할 수 있다.

왜 중요한가

핵심 기여

Beta-Binomial 카운트 기반 감독

Kt|N 독립된 이항 카운트를 베타-분포 qt로 모델링하고, αt = µt κt, βt = (1−µt)κt로 재매개변수화하는 BETAPRM의 핵심 아이디어를 제시한다. 이 구조는 q̂t를 단일 점 라벨로 학습하는 대신 관찰 카운트 형태의 감독을 가능하게 한다.

µt와 κt의 분리된 예측

µt는 프리픽스의 평균 성공 확률로 작용하고, κt는 신념의 집중도(신뢰도)를 조절한다. Reward 토큰 logits로 µt를 얻고, h(ht)에서 κt를 예측하는 가벼운 추가 헤드를 두어 두 채널을 분리한다.

Beta-Binomial 손실 및 보정 항

p(Kt|N, αt, βt)를 음의 로그 가능도 LBeta-Binomial로 최적화하고,Auxiliary 정규화 손실 Lreg를 더해 µt와 관찰 카운트 간의 불일치를 κt의 보정으로 연결한다. stop-gradient를 사용해 µt를 직접적으로 Kt/N에 끌어당기지 않게 한다.

Adaptive Computation Allocation 도입

BETAPRM의 신뢰도 신호를 활용한 ACA를 제시한다. rt = µt − λσt로 위험 조정 점수를 만들고, S(y) = (1/T)∑t(µt − λσt)로 후보를 순위화하여 중단 여부를 결정한다. 불확실한 프리픽스에 대해 재탐색을 수행한다.

성능-효율성의 일관된 개선

4가지 백본과 4개의 벤치마크에서 PRM-guided Best-of-N 선택 성능이 향상되며, 토큰 사용량은 최대 33.57%까지 감소한다. 또한 step-level 에러 탐지 능력을 유지한다.

핵심 아이디어 이해하기

전제: 기존의 PRM은 프리픽스의 성공 확률을 단일 점으로 예측해 불확실성을 표현하지 않는다. BETAPRM은 qt를 Beta 분포로 표현하고, 관측된 Kt/N 카운트를 Beta-Binomial likelihood로 설명하여 확률의 신뢰도 κt를 함께 학습한다. 이렇게 얻은 µt와 κt를 통해 신뢰도에 따라 보상을 다루고, ACA를 통해 불확실한 프리픽스에 더 많은 계산을 할당한다. 실험적으로는 µt와 κt를 기반으로한 σt를 계산하고, rt = µt − λσt로 위험을 조정한 점수로 후보를 비교한다. 결과적으로 높은 신뢰도의 보상은 조기에 중단하고, 불확실한 프리픽스는 재탐색되며, 토큰 수를 줄이면서도 최종 정확도를 높인다.

방법론

입력 x에 대해 Step: s1, , s2, , ..., sT, 순으로 프리픽스를 구성한다. t번째 프롬프에 대해 두 reward 토큰의 로짓 zYes_t, zNo_t를 이용해 µt를 계산한다. µt = exp(zYes_t) / (exp(zYes_t) + exp(zNo_t)). κt = softplus(gϕ(ht)) + κmin. αt = µt κt, βt = (1 − µt) κt. qt | ϑt ∼ Beta(αt, βt)이며 Kt|N, qt ∼ Binomial(N, qt)이다. 따라서 p(Kt|N, αt, βt) = (N choose Kt) B(Kt+αt, N−Kt+βt) / B(αt, βt). Beta-Binomial 손실 LBeta-Binomial = −(1/|P|) ∑t∈P log p(Kt|N, αt, βt)로 학습한다. 보정 항 Lreg는 sg(µt)로 µt를 Kt/N으로 끌어당기지 않도록 κt를 보정한다. ACA는 다음과 같다: σt = sqrt(µt(1−µt)/(κt+1)), rt = µt − λσt, S(y) = (1/T)∑t(µt − λσt)로 후보를 순위화하고, LCB/UCB를 이용해 중단 여부를 결정한다. 학습 데이터는 VisualPRM400K-v1.1을 사용하고, 백본은 InternVL2.5-8B, InternVL3-8B, InternVL3-14B, Qwen2.5-VL-7B를 채택한다. 최적화는 AdamW로 수행하며, κmin, 초기 κ, Lreg 계수 등 하이퍼파라미터가 주어진다.

주요 결과

주요 벤치마크에서 BETAPRM은 Best-of-16 최종 정답 정확도에서 일관된 향상을 보인다. InternVL3-14B에서 +1.29점, InternVL3-8B에서 +1.46점, InternVL2.5-8B에서 +3.37점, Qwen2.5-VL-7B에서 +2.66점의 Avg. ∆를 달성했다. 또한 VisualProcessBench의 단계별 에러 탐지에서 BETAPRM은 기존 PRM과 비교해 대체로 동등한 micro-F1 성능을 유지했다. Lreg를 도입한 ablation은 κt의 보정 성능을 증가시키고 평균 성능을 +1.02포인트 개선한다. κt의 학습 동향은 초기 감소 후 점차 상승하는 경향을 보이며, 상위 분위수에서의 차별화된 컨센트레이션이 나타난다. ACA는 고정 예산 BoN 대비 토큰 소모를 크게 줄이면서도 정확도를 높이며, Learned Uncertainty를 활용한 BETAPRM 기반 ACA가 Proxy Uncertainty나 Reward-Only 대비 우수한 성능-토큰 절감을 보인다. 토큰 절감은 InternVL2.5-8B에서 평균 30%대, Qwen2.5-VL-7B에서도 27–33%대의 감소로 나타난다.

기술 상세

아키텍처: 프리픽스-조건 프로세스 보상. zYes_t, zNo_t 로짓에서 µt를 계산하고, κt를 독립 헤드로 예측한다. αt = µt κt, βt = (1−µt) κt로 Beta 분포를 정의한다. Kt|N ∼ Binomial(N, qt), qt ∼ Beta(αt, βt)일 때 p(Kt|N, αt, βt) = [NKt] B(Kt+αt, N−Kt+βt)/B(αt, βt)이다. 손실은 LBeta-Binomial = −(1/|P|) ∑ log p(Kt|N, αt, βt)이며, Lreg로 κt의calibration을 보정한다. Inference 시 σt = sqrt(µt(1−µt)/(κt+1))로 불확실성을 추정하고 rt = µt − λσt를 사용해 후보의 위험-조정 점수를 계산한다. ACA는 n0 샘플링 후 재샘플링 여부를 LCB, UCB로 결정하며, prefix repair는 cutpoint 규칙에 따라 수행한다. 데이터셋은 VisualPRM400K-v1.1을 사용하고, 4개의 멀티모달 백본 InternVL2.5-8B/InternVL3-8B/InternVL3-14B/Qwen2.5-VL-7B를 적용한다. 하이퍼파라미터는 AdamW 최적화, κmin, 초기 κ, Lreg 계수, Concentration-head LR 배율 등을 포함한다.

한계점

대상 데이터는 VisualPRM400K-v1.1로 한정되며, Beta-Binomial 감독이 해당 도메인에서만 확립되었다. Beta-Binomial 신뢰도는 학습된 신뢰 신호이므로, 고위험 상황에서 정확성 보장을 제공하지 않는다. 모듈 간의 일반화는 제한될 수 있으며, 다른 모달리티나 도메인에서의 전환은 추가 평가가 필요하다.

실무 활용

BETAPRM의 신뢰도 신호를 활용하면 PRM-guided Best-of-N 추론의 효율성과 정확도를 동시에 개선할 수 있다.

Best-of-N 추론에서 프롬프트의 남은 샘플링 수를 줄이고, 신뢰도 높은 보상에 더 많은 비중을 두는 검색/합의 전략에 적용
프레임워크 수준에서 신뢰도 기반 중단 정책을 도입해 불필요한 연산 제거
대규모 멀티모달 추론에서 불확실 프리픽스 재탐색을 효율적으로 수행
비용-효율이 중요한 실서비스에서 토큰 사용량과 응답 속도 개선

코드 공개 여부: 공개

코드 저장소 보기

키워드

Beta-Binomial 분포Process Reward ModelMonte Carlo continuationsAdaptive Computation AllocationBest-of-Nreliability signalBeta Belief