조종 실험
모델 내부의 특정 활성 벡터를 인위적으로 더하거나 빼서 모델의 출력 성향을 변화시키는 실험이다. 이를 통해 특정 신경 활성 패턴과 실제 모델 행동 사이의 인과 관계를 검증한다.