탈옥(jailbreak)이란 무엇인가요?

Question

Accepted Answer

프롬프트 엔지니어링을 통해 모델의 안전 가이드라인을 우회하여 금지된 답변을 유도하는 기법이다. 모델 내부의 가중치를 바꾸는 것이 아니라 입력값의 맥락을 조작하여 거부 메커니즘을 속이는 방식이다. 모델 자체의 구조는 변하지 않으므로 가중치 수정과는 차이가 있다.

jailbreak