인과적 조절
모델의 내부 활성화 값(Activation)에 특정 벡터를 더하거나 빼서 모델의 출력 방향을 인위적으로 조정하는 기법이다. 단순한 관찰을 넘어 특정 내부 표현이 실제 행동의 원인임을 입증하고, 모델의 성향을 실시간으로 제어하는 데 사용된다.