예측 엔트로피
각 토큰 위치에서 모델이 예측하는 다음 토큰 분포의 Shannon entropy이다. 분포 p(v)에서 -Σ_v p(v) log p(v)를 계산해 불확실성 크기를 수치화하며, 토큰별 불확실성 궤적을 통해 입력이 유해(jailbreak)인지 여부의 동적 신호를 포착한다.