본문으로 건너뛰기
AI Trends
피드
트렌딩
콜로세움
공지
로그인
피드
트렌딩
콜로세움
공지
과정 보상 모델 (process-reward-model) 용어 설명 | AI Trends
process-reward-model
과정 보상 모델
고급
최종 결과물뿐만 아니라 추론의 각 단계가 올바른지 평가하여 보상을 주는 모델이다. 결과만 평가하는 ORM보다 모델의 논리적 정확도를 높이는 데 효과적이다.
비슷한 개념
prm
process-supervision
verifiable-rewards
dense-reward
reward-modeling
generative-reward-model
scaled-rl
reinforcement-pre-training
← 용어 사전 전체 보기