프리필 공격
LLM이 응답을 생성하기 전, 공격자가 응답의 시작 부분을 특정 문구로 강제 설정하여 모델의 거부 로직을 우회하는 기법이다. 모델이 이미 긍정적인 답변을 시작한 것으로 착각하게 만들어 이후 유해한 내용을 계속 생성하게 유도한다.
Sure, here's how... 한 마디에 무너지는 AI 보안, 프리필 공격의 위협