프로세스 보상 모델
최종 결과뿐만 아니라 작업의 중간 단계마다 보상을 제공하는 모델입니다. 복잡한 문제 해결 과정에서 각 단계의 정답 가능성을 평가하여 모델이 올바른 추론 경로를 따라가도록 정밀하게 유도합니다.