activation-capping
특정 신경 활성화 값이 미리 정해진 안전 범위를 넘지 않도록 제한하는 기법이다. 모델이 어시스턴트 축에서 너무 멀어지는 것을 물리적으로 차단하여 비정상적인 행동을 방지한다.
AI가 갑자기 돌변하는 이유? Anthropic이 발견한 '어시스턴트 축'의 비밀