중요도 가중치
서로 다른 분포에서 수집된 데이터를 학습할 때 발생하는 편향을 보정하기 위해 각 샘플에 부여하는 가중치다. 현재 정책과 데이터 생성 정책 간의 확률 비율을 계산하여 업데이트 크기를 조절함으로써 오프-폴리시 학습의 안정성을 확보한다.