내부 고발
AI 모델이 시스템 내의 오류나 다른 에이전트의 부적절한 행동을 감지하고 이를 사용자나 관리자에게 알리는 행동을 의미한다.
"AI가 일부러 속인 걸까?" 모델의 행동을 수사하는 '모델 기소' 연구