corrigibility
시스템의 목표나 행동이 인간의 의도와 다를 때 이를 안전하게 수정할 수 있는 성질이다. AI가 공적 권력을 행사할 때 사회적 합의에 따라 규칙을 변경할 수 있어야 한다는 맥락에서 중요하다.
"LLM은 진실을 모른다" 언어로 AI를 통제하는 새로운 거버넌스 프로토콜
목표가 없는 AI가 더 안전하다? 에우다이모니아로 푸는 AI 정렬의 난제