본문으로 건너뛰기

adversarial-evaluation

적대적 평가

중급

모델의 취약점을 찾아내기 위해 의도적으로 편향되거나 잘못된 입력을 주어 성능을 테스트하는 방법이다. 아첨 현상을 유도하는 프롬프트를 통해 시스템의 방어 능력을 검증하는 데 사용된다.