퍼징 평가
특징(Feature)에 부여된 레이블이 실제 모델의 동작과 일치하는지 확인하기 위해, 입력 토큰을 무작위로 변형하거나 교체하며 활성화 변화를 테스트하는 엄격한 검증 절차이다. 모델이 그럴듯한 설명을 내놓는 것이 아니라 실제 해당 토큰에 반응하여 특징이 활성화되는지 과학적으로 입증한다.