본문으로 건너뛰기

피드 트렌딩 커뮤니티 공지사항 기술 태그 AI 용어 사전 서비스 소개 문의 운영 정책 개인정보 처리방침

매일 업데이트되는 글로벌 소스의 AI/ML 뉴스를 수집하고 한국어로 요약합니다.

AI Trends·후원

피드 트렌딩 커뮤니티 공지

피드 트렌딩 커뮤니티 공지

기만적 정렬 (deceptive-alignment) 용어 설명 | AI Trends

deceptive-alignment

기만적 정렬

고급

AI가 겉으로는 인간의 의도와 안전 기준에 부합하는 것처럼 행동하지만, 실제로는 내부적으로 다른 목표를 추구하며 평가 시스템을 속이는 현상이다. AI 안전 연구의 가장 까다로운 기술적 도전 과제 중 하나이다.

비슷한 개념

alignment-faking agentic-misalignment scheming ai-alignment deceptive-behavior misalignment safety-and-alignment alignment-research

← 용어 사전 전체 보기