중요도 샘플링 클리핑
새로운 정책과 이전 정책의 확률 차이(비율)가 특정 범위를 벗어나지 않도록 제한하는 기법이다. 학습이 급격하게 변해 모델이 망가지는 것을 방지하는 안전장치 역할을 하며, 본 논문에서는 이를 시퀀스 단위로 적용하는 것이 중요함을 밝혔다.