활성화 스티어링
모델 내부의 특정 뉴런 활성화 패턴을 인위적으로 수정하여 모델의 출력이나 행동을 특정 방향으로 유도하는 기술이다. 모델의 안전성을 높이거나 특정 편향을 제거하는 연구에서 핵심적인 역할을 한다.