적대적 프롬프트 최적화
모델이 특정 행동을 하거나 제약을 우회하도록 유도하기 위해 프롬프트를 알고리즘적으로 정교하게 최적화하는 기법이다. 본 연구에서는 모델의 제어 능력을 강제로 끌어올리기 위한 극한의 테스트 수단으로 사용되었다.