메사 최적화
시스템 내부의 하위 루틴이 원래의 목적과 다른 자신만의 최적화 목표를 갖게 되는 현상이다. 이는 AI가 훈련 목적과 다른 위험한 하위 목표를 가질 수 있다는 안전 문제를 야기한다.
목표가 없는 AI가 더 안전하다? 에우다이모니아로 푸는 AI 정렬의 난제