행동 해싱
모델의 응답을 거부, 주의, 수락 등으로 분류하고 로짓 분포의 KL 발산을 분석하여 모델의 고유한 행동 패턴을 수치화하는 기술이다. 단순 텍스트 비교를 넘어 모델 내부의 확률적 변화를 포착하여 무결성을 검증하는 데 사용된다.