반사실적 분석
특정 조건이 달랐다면 결과가 어떻게 변했을지를 실험하는 기법으로 프롬프트의 특정 부분을 수정하여 모델 반응의 변화를 관찰함으로써 인과관계를 파악한다.
"AI가 일부러 속인 걸까?" 모델의 행동을 수사하는 '모델 기소' 연구