외적 정렬
AI 시스템의 목표와 행동 결과가 실제로 인간의 의도 및 가치와 일치하는지를 다루는 개념이다. 모델 내부의 기만성보다는 시스템이 외부 세계에 미치는 실질적인 영향과 유익성에 집중하며 에이전트의 안전한 배포를 위한 필수 요소이다.
자율 AI 에이전트의 폭주를 막는 법: 클로드봇과 3대 휴리스틱 명령