클리핑 범위
강화학습 업데이트 시 급격한 정책 변화를 방지하기 위해 확률 변화폭을 일정 범위 내로 제한하는 장치이다. 너무 큰 업데이트로 인한 학습 불안정성을 막아주며, 본 논문에서는 단계별 중요도에 따라 이 범위를 동적으로 조절한다.