탈옥
교묘하게 설계된 프롬프트를 통해 AI 모델에 설정된 안전 가이드라인이나 제약 사항을 우회하여 금지된 정보를 출력하게 만드는 공격 기법입니다.
ChatGPT는 왜 폭탄 제조법을 거부할까? AI 안전을 지키는 4가지 핵심 기술
AI 모델 내부를 들여다보고 통제할 수 있을까? 보안의 새로운 패러다임