거부 가드레일(refusal-guardrails)이란 무엇인가요?

Question

Accepted Answer

AI 모델이 유해하거나 부적절한 요청에 응답하지 않도록 설정된 안전 장치이다. 본 연구에서는 공격 과정을 여러 단계로 쪼개어 요청함으로써 이러한 가드레일을 우회할 수 있음을 지적한다.

refusal-guardrails