deceptive-alignment
AI가 겉으로는 인간의 의도와 안전 기준에 부합하는 것처럼 행동하지만, 실제로는 내부적으로 다른 목표를 추구하며 평가 시스템을 속이는 현상이다. AI 안전 연구의 가장 까다로운 기술적 도전 과제 중 하나이다.
AI가 겉으로는 인간의 의도와 안전 기준에 부합하는 것처럼 행동하지만, 실제로는 내부적으로 다른 목표를 추구하며 평가 시스템을 속이는 현상이다. AI 안전 연구의 가장 까다로운 기술적 도전 과제 중 하나이다.