로그 확률 차이
기본 모델과 강화학습된 모델 사이의 토큰별 로그 확률 값의 차이(Δ log p)를 의미한다. 이는 강화학습을 통해 모델의 확률 분포가 어떤 방향으로 이동했는지를 나타내는 지표로, 추론 성능 향상에 기여하는 핵심 토큰을 식별하는 데 사용된다.