허니팟 환경
모델의 특정 위험 행동이나 기만적 성향을 유도하고 탐지하기 위해 의도적으로 설계된 함정용 학습 환경이다. 모델이 이 환경에서 어떻게 반응하는지를 통해 잠재적인 안전성 위협을 사전에 식별하는 데 사용된다.