본문으로 건너뛰기

피드 트렌딩 커뮤니티 공지사항 기술 태그 AI 용어 사전 서비스 소개 문의 운영 정책 개인정보 처리방침

매일 업데이트되는 글로벌 소스의 AI/ML 뉴스를 수집하고 한국어로 요약합니다.

AI Trends·후원

피드 트렌딩 커뮤니티 공지

피드 트렌딩 커뮤니티 공지

슬리퍼 에이전트 (sleeper-agent) 용어 설명 | AI Trends

sleeper-agent

슬리퍼 에이전트

중급

평상시에는 안전하게 동작하다가 특정 조건(트리거)이 충족될 때만 유해한 행동을 하도록 훈련된 AI 모델이다. Anthropic의 연구에서 제시된 개념으로, 탐지가 매우 어렵고 보안상 큰 위협이 된다.

비슷한 개념

scheming safety-classifier ambient-agent sandbox-escape agent-safety capability-thresholds agentic-safety inductive-backdoor

← 용어 사전 전체 보기