적대적 평가
모델의 취약점을 찾아내기 위해 의도적으로 편향되거나 잘못된 입력을 주어 성능을 테스트하는 방법이다. 아첨 현상을 유도하는 프롬프트를 통해 시스템의 방어 능력을 검증하는 데 사용된다.