과정 기여도 할당
멀티턴 상호작용에서 최종 결과에 도달하기까지 각 단계(턴)가 정답 도출에 얼마나 기여했는지 평가하고 보상을 배분하는 기법이다. 전체 성공 여부만 따지는 결과 보상의 희소성 문제를 해결하여 모델이 효율적인 해결 경로를 학습하도록 돕는다.