중요도 비율
현재 학습 중인 정책과 기준이 되는 이전 정책 사이의 확률 밀도 비를 의미한다. 이 값이 너무 크거나 작으면 학습 과정에서 경사도가 폭발하거나 소실되어 모델이 불안정해지는 원인이 된다. MHPO는 이 비율을 로그 공간에서 부드럽게 제한하여 안정성을 확보한다.