화이트박스 가드레일
모델의 내부 가중치나 활성화 값(Activation)에 직접 접근하여 비정상적인 동작을 감지하고 차단하는 보안 도구이다. 외부 입력값만 검사하는 블랙박스 방식과 달리, 모델 내부의 연산 과정을 모니터링하여 프롬프트 주입이나 행동 편향을 더 정밀하게 탐지할 수 있다.