본문으로 건너뛰기
BETAPRM: Monte Carlo 컨티뉴에이션으로 학습된 신뢰도 신호를 갖춘 Beta-Binomial 기반 Process Reward Model | AI Trends