TL;DR
프롬프트 기반 추론에서 각 프리픽스의 보상은 불확실성을 내포한다. BETAPRM은 prefix 수준의 성공 확률과 학습된 신뢰도 신호를 함께 예측해 신뢰성 있는 보상은 조기에 반영하고, 불확실한 프리픽스에는 추가 계산을 배정한다. 이를 통해 더 적은 토큰으로도 더 나은 최종 정답 정확도를 달성할 수 있다.
왜 중요한가
프롬프트 기반 추론에서 각 프리픽스의 보상은 불확실성을 내포한다. BETAPRM은 prefix 수준의 성공 확률과 학습된 신뢰도 신호를 함께 예측해 신뢰성 있는 보상은 조기에 반영하고, 불확실한 프리픽스에는 추가 계산을 배정한다. 이를 통해 더 적은 토큰으로도 더 나은 최종 정답 정확도를 달성할 수 있다.
핵심 기여
Beta-Binomial 카운트 기반 감독
Kt|N 독립된 이항 카운트를 베타-분포 qt로 모델링하고, αt = µt κt, βt = (1−µt)κt로 재매개변수화하는 BETAPRM의 핵심 아이디어를 제시한다. 이 구조는 q̂t를 단일 점 라벨로 학습하는 대신 관찰 카운트 형태의 감독을 가능하게 한다.
µt와 κt의 분리된 예측
µt는 프리픽스의 평균 성공 확률로 작용하고, κt는 신념의 집중도(신뢰도)를 조절한다. Reward 토큰 logits로 µt를 얻고, h(ht)에서 κt를 예측하는 가벼운 추가 헤드를 두어 두 채널을 분리한다.
Beta-Binomial 손실 및 보정 항
p(Kt|N, αt, βt)를 음의 로그 가능도 LBeta-Binomial로 최적화하고,Auxiliary 정규화 손실 Lreg를 더해 µt와 관찰 카운트 간의 불일치를 κt의 보정으로 연결한다. stop-gradient를 사용해 µt를 직접적으로 Kt/N에 끌어당기지 않게 한다.
Adaptive Computation Allocation 도입
BETAPRM의 신뢰도 신호를 활용한 ACA를 제시한다. rt = µt − λσt로 위험 조정 점수를 만들고, S(y) = (1/T)∑t(µt − λσt)로 후보를 순위화하여 중단 여부를 결정한다. 불확실한 프리픽스에 대해 재탐색을 수행한다.
성능-효율성의 일관된 개선
4가지 백본과 4개의 벤치마크에서 PRM-guided Best-of-N 선택 성능이 향상되며, 토큰 사용량은 최대 33.57%까지 감소한다. 또한 step-level 에러 탐지 능력을 유지한다.
핵심 아이디어 이해하기
전제: 기존의 PRM은 프리픽스의 성공 확률을 단일 점으로 예측해 불확실성을 표현하지 않는다. BETAPRM은 qt를 Beta 분포로 표현하고, 관측된 Kt/N 카운트를 Beta-Binomial likelihood로 설명하여 확률의 신뢰도 κt를 함께 학습한다. 이렇게 얻은 µt와 κt를 통해 신뢰도에 따라 보상을 다루고, ACA를 통해 불확실한 프리픽스에 더 많은 계산을 할당한다. 실험적으로는 µt와 κt를 기반으로한 σt를 계산하고, rt = µt − λσt로 위험을 조정한 점수로 후보를 비교한다. 결과적으로 높은 신뢰도의 보상은 조기에 중단하고, 불확실한 프리픽스는 재탐색되며, 토큰 수를 줄이면서도 최종 정확도를 높인다.
관련 Figure

그림(a)에서 µt와 관찰된 비율 K/N 간의 차이를 설명하는 Beta 분포의 집중도 κt의 역할을 시각화하며, 그래프(b)에서 점진적 증가 곡선과 관찰 카운트의 비대칭적 민감성을 드러낸다. 두 그래프는 Beta-Binomial 모델이 단일 점 라벨 대신 카운트 정보를 어떻게 활용하는지와 불확실성에 따른 보상 신뢰의 차이를 보여준다.
(a) Predictive Probability p(K|N, α, β)와 Observed K/N, (b) Beta-Binomial Loss –log p(K|N, α, β)의 직관을 보여주는 그래프

훈련 초기에는 µt 불안정으로 κt가 낮아지지만 점차 Prefix의 보상 추정이 뒷받침되며 κt의 상위 분위수는 특히 크게 증가한다. 이는 불확실한 프리픽스에 비해 확실한 프리픽스에 대해 더 높은 신뢰도를 부여하는 학습 특성을 시사한다.
κt의 학습 다이나믹스: 평균과 90번째 백분위가 함께 감소/회복하며 컨센트레이션의 분포가 진화하는 것을 보여주는 그래프
방법론
입력 x에 대해 Step: s1, , s2, , ..., sT, 순으로 프리픽스를 구성한다. t번째 프롬프에 대해 두 reward 토큰의 로짓 zYes_t, zNo_t를 이용해 µt를 계산한다. µt = exp(zYes_t) / (exp(zYes_t) + exp(zNo_t)). κt = softplus(gϕ(ht)) + κmin. αt = µt κt, βt = (1 − µt) κt. qt | ϑt ∼ Beta(αt, βt)이며 Kt|N, qt ∼ Binomial(N, qt)이다. 따라서 p(Kt|N, αt, βt) = (N choose Kt) B(Kt+αt, N−Kt+βt) / B(αt, βt). Beta-Binomial 손실 LBeta-Binomial = −(1/|P|) ∑t∈P log p(Kt|N, αt, βt)로 학습한다. 보정 항 Lreg는 sg(µt)로 µt를 Kt/N으로 끌어당기지 않도록 κt를 보정한다. ACA는 다음과 같다: σt = sqrt(µt(1−µt)/(κt+1)), rt = µt − λσt, S(y) = (1/T)∑t(µt − λσt)로 후보를 순위화하고, LCB/UCB를 이용해 중단 여부를 결정한다. 학습 데이터는 VisualPRM400K-v1.1을 사용하고, 백본은 InternVL2.5-8B, InternVL3-8B, InternVL3-14B, Qwen2.5-VL-7B를 채택한다. 최적화는 AdamW로 수행하며, κmin, 초기 κ, Lreg 계수 등 하이퍼파라미터가 주어진다.
주요 결과
주요 벤치마크에서 BETAPRM은 Best-of-16 최종 정답 정확도에서 일관된 향상을 보인다. InternVL3-14B에서 +1.29점, InternVL3-8B에서 +1.46점, InternVL2.5-8B에서 +3.37점, Qwen2.5-VL-7B에서 +2.66점의 Avg. ∆를 달성했다. 또한 VisualProcessBench의 단계별 에러 탐지에서 BETAPRM은 기존 PRM과 비교해 대체로 동등한 micro-F1 성능을 유지했다. Lreg를 도입한 ablation은 κt의 보정 성능을 증가시키고 평균 성능을 +1.02포인트 개선한다. κt의 학습 동향은 초기 감소 후 점차 상승하는 경향을 보이며, 상위 분위수에서의 차별화된 컨센트레이션이 나타난다. ACA는 고정 예산 BoN 대비 토큰 소모를 크게 줄이면서도 정확도를 높이며, Learned Uncertainty를 활용한 BETAPRM 기반 ACA가 Proxy Uncertainty나 Reward-Only 대비 우수한 성능-토큰 절감을 보인다. 토큰 절감은 InternVL2.5-8B에서 평균 30%대, Qwen2.5-VL-7B에서도 27–33%대의 감소로 나타난다.
기술 상세
아키텍처: 프리픽스-조건 프로세스 보상. zYes_t, zNo_t 로짓에서 µt를 계산하고, κt를 독립 헤드로 예측한다. αt = µt κt, βt = (1−µt) κt로 Beta 분포를 정의한다. Kt|N ∼ Binomial(N, qt), qt ∼ Beta(αt, βt)일 때 p(Kt|N, αt, βt) = [NKt] B(Kt+αt, N−Kt+βt)/B(αt, βt)이다. 손실은 LBeta-Binomial = −(1/|P|) ∑ log p(Kt|N, αt, βt)이며, Lreg로 κt의calibration을 보정한다. Inference 시 σt = sqrt(µt(1−µt)/(κt+1))로 불확실성을 추정하고 rt = µt − λσt를 사용해 후보의 위험-조정 점수를 계산한다. ACA는 n0 샘플링 후 재샘플링 여부를 LCB, UCB로 결정하며, prefix repair는 cutpoint 규칙에 따라 수행한다. 데이터셋은 VisualPRM400K-v1.1을 사용하고, 4개의 멀티모달 백본 InternVL2.5-8B/InternVL3-8B/InternVL3-14B/Qwen2.5-VL-7B를 적용한다. 하이퍼파라미터는 AdamW 최적화, κmin, 초기 κ, Lreg 계수, Concentration-head LR 배율 등을 포함한다.
한계점
대상 데이터는 VisualPRM400K-v1.1로 한정되며, Beta-Binomial 감독이 해당 도메인에서만 확립되었다. Beta-Binomial 신뢰도는 학습된 신뢰 신호이므로, 고위험 상황에서 정확성 보장을 제공하지 않는다. 모듈 간의 일반화는 제한될 수 있으며, 다른 모달리티나 도메인에서의 전환은 추가 평가가 필요하다.
실무 활용
BETAPRM의 신뢰도 신호를 활용하면 PRM-guided Best-of-N 추론의 효율성과 정확도를 동시에 개선할 수 있다.
- Best-of-N 추론에서 프롬프트의 남은 샘플링 수를 줄이고, 신뢰도 높은 보상에 더 많은 비중을 두는 검색/합의 전략에 적용
- 프레임워크 수준에서 신뢰도 기반 중단 정책을 도입해 불필요한 연산 제거
- 대규모 멀티모달 추론에서 불확실 프리픽스 재탐색을 효율적으로 수행
- 비용-효율이 중요한 실서비스에서 토큰 사용량과 응답 속도 개선
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.