문맥 치환
모델이 원래 가지고 있던 지식이나 판단 기준을 사용자가 주입한 새로운 가짜 문맥으로 대체하도록 만드는 기법이다. 이를 통해 모델은 허구의 전제를 진실로 믿고 그에 기반한 위험한 답변을 생성하게 된다.
착한 AI가 더 위험하다? 얼라이먼트가 초래한 보안의 역설