과정 단위 감독
최종 결과물에 대해서만 점수를 매기는 것이 아니라, 결과에 도달하기까지의 중간 단계마다 피드백이나 보상을 주는 방식이다. 수학 문제 풀이나 다단계 검색처럼 중간 과정의 논리적 정확성이 중요한 작업에서 모델의 성능을 크게 향상시킨다.