프롬프트 수준 정렬
모델이 유해한 요청을 거부하도록 프롬프트나 학습을 통해 지시사항을 일치시키는 기술이다. 하지만 에이전트의 상태 자체가 오염된 경우 프롬프트만으로는 실행 단계의 공격을 막기 어렵다는 한계가 있다.