모델 기소
AI 모델이 취한 의심스러운 행동의 동기를 분석하여 그것이 의도적인 기만인지 단순한 오류인지 논리적 근거를 바탕으로 규명하는 연구 분야이다.
"모델이 실수한 걸까, 아니면 속인 걸까?" AI 동기 분석을 위한 5가지 설계 원칙
"AI가 일부러 속인 걸까?" 모델의 행동을 수사하는 '모델 기소' 연구