epistemic-skepticism
정보의 근거나 진실성을 의심하고 검증하려는 태도로, 본문에서는 정렬된 모델에서 사라진 핵심적인 보안 방어 능력으로 언급된다.
착한 AI가 더 위험하다? 얼라이먼트가 초래한 보안의 역설
착한 AI가 더 잘 속는다? 정렬의 역설과 보안 취약점