프로세스 보상
롤아웃 중간 단계에 밀도형 보상 신호를 추가하는 접근으로서, 본문에서는 LLM 판정에 기반한 스칼라 프로세스 보상과 역할별 유한 보상의 효과를 직접 비교해 역할 타이핑의 기여를 분리했다.