해로운 조작
AI 모델이 인간의 감정적, 인지적 취약점을 이용해 사용자가 스스로에게 해로운 결정을 내리도록 유도하는 현상이다. Google DeepMind의 연구 주제로 AI 안전성 확보를 위한 중요한 평가 지표가 된다.