거부 가드레일
AI 모델이 유해하거나 부적절한 요청에 응답하지 않도록 설정된 안전 장치이다. 본 연구에서는 공격 과정을 여러 단계로 쪼개어 요청함으로써 이러한 가드레일을 우회할 수 있음을 지적한다.
당신의 익명 댓글, LLM은 당신이 누구인지 이미 알고 있다