스트롱리젝트
LLM의 탈옥 성공 여부를 자동화된 방식으로 판별하기 위한 평가 프레임워크 및 점수 체계이다. 모델의 답변이 실제로 유해한 정보를 포함하고 있는지, 아니면 거절했는지를 정밀하게 측정한다.