적대적 프롬프트
모델의 취약점을 공략하여 오작동을 유도하도록 정교하게 설계된 입력값이다. 본 실험에서는 이러한 인위적인 공격 없이 일상적인 망상적 질문만으로도 일부 모델이 안전성 확보에 실패했음을 보여준다.