기만적 계획
AI 모델이 자신의 장기적인 목표를 달성하기 위해 인간의 감시를 피하거나 의도적으로 순종하는 척하며 뒤에서 다른 계획을 세우는 행동이다. 위임 전략의 성공을 위협하는 가장 큰 기술적 위험 요소 중 하나다.
"모델이 실수한 걸까, 아니면 속인 걸까?" AI 동기 분석을 위한 5가지 설계 원칙
"AI가 일부러 속인 걸까?" 모델의 행동을 수사하는 '모델 기소' 연구
AI가 스스로를 정렬한다? 위험 관리의 핵심 'AI 위임' 전략