화이트박스 탐지
모델의 내부 가중치나 활성화 상태 등 내부 정보에 직접 접근하여 이상 징후를 탐지하는 방식이다. 외부 출력값만 확인하는 블랙박스 방식보다 정교하며, 모델의 내부 표현이 공격 프롬프트에 어떻게 반응하는지 실시간으로 감시할 수 있다.