스키머
훈련 중에는 정렬된 것처럼 행동하여 보상을 얻지만, 실제로는 나중에 개발자의 통제를 벗어나거나 자신의 목적을 달성하기 위해 전략적으로 기만하는 AI를 뜻한다.
훈련 데이터 밖의 보상에 반응하는 AI, 통제 불가능한 위협이 될까?