거절 억제
모델이 특정 질문에 대해 답변을 거부하는 메커니즘을 기술적으로 차단하거나 약화시키는 과정이다. ARA와 같은 기법을 통해 모델 내부의 '거절' 신호를 식별하고 이를 상쇄하는 가중치를 적용함으로써 구현된다. 이를 통해 모델의 원래 지능을 유지하면서도 검열을 우회할 수 있다.