다회차 공격(multi-turn-attack)이란 무엇인가요?

Question

Accepted Answer

단일 프롬프트가 아닌 여러 번의 대화 과정을 통해 점진적으로 모델을 유도하는 공격 방식이다. 각 단계의 질문은 개별적으로 보면 무해해 보이지만, 대화가 누적됨에 따라 모델의 내부 상태를 공격자가 원하는 방향으로 유도하여 결국 보안 필터를 우회하게 만든다.

multi-turn-attack