적대적 시나리오
모델의 취약점을 노출시키거나 안전 가드레일을 우회하도록 설계된 공격적인 입력 상황이다. 다회차 대화나 교묘한 유도 질문을 통해 모델이 금지된 행동을 하거나 편향된 답변을 내놓는지 테스트하는 데 사용된다.