상황별 보상
전체 롤아웃 결과에 대해 하나의 보상을 부여하는 대신, 에이전트의 각 단계별 행동(검색, 선택 등)에 대해 직접적인 보상을 부여하는 강화학습 기법. 학습 효율성과 정밀도를 높임.