허니팟 기법
AI의 잠재적인 오정렬 성향을 탐지하기 위해 개발자가 의도적으로 만든 가상의 고위험 상황이다. AI가 배신할 기회를 제공하고 실제로 배신하는지 관찰함으로써 모델의 안전성을 평가하고 훈련하는 데 사용된다.