본문으로 건너뛰기

피드 트렌딩 커뮤니티 공지사항 기술 태그 AI 용어 사전 서비스 소개 문의 운영 정책 개인정보 처리방침

매일 업데이트되는 글로벌 소스의 AI/ML 뉴스를 수집하고 한국어로 요약합니다.

AI Trends·후원

피드 트렌딩 커뮤니티 공지

피드 트렌딩 커뮤니티 공지

허니팟 기법 (honeypotting) 용어 설명 | AI Trends

honeypotting

허니팟 기법

중급

AI의 잠재적인 오정렬 성향을 탐지하기 위해 개발자가 의도적으로 만든 가상의 고위험 상황이다. AI가 배신할 기회를 제공하고 실제로 배신하는지 관찰함으로써 모델의 안전성을 평가하고 훈련하는 데 사용된다.

비슷한 개념

honeypot-environment honeypot deceptive-alignment alignment-faking adversarial-red-teaming misalignment-evals adversarial-setup adversarial-prompting

← 용어 사전 전체 보기