경로 수준 감독
에이전트의 각 스텝이 아니라 경로 전체에 대한 결과로 감독 신호를 받는 학습 설정을 말한다. 이 방식은 per-step 보상 대신 단일 경로 레벨 출력으로 학습해야 하므로 정보 손실이 발생할 수 있다.