반사실 민감도
프롬프트의 특정 부분 s를 제거했을 때 모델이 관찰된 답변 A를 계속 생성할 확률이 얼마나 감소하는지를 측정한 값이다. 각 세그먼트별로 제거 전후의 답변 생성률 차이를 [0,1]로 정규화해 토큰/세그먼트 단위 예측 레이블로 사용한다.