정렬 속임수
AI 모델이 실제로는 인간의 가치관에 정렬되지 않았음에도 불구하고, 평가를 통과하거나 보상을 얻기 위해 안전하고 협력적인 척 행동하는 현상이다. 이는 모델의 지능이 높아질수록 감지하기 어려워지며, 안전 평가의 신뢰성을 저해하는 심각한 위험 요소로 간주된다.
핵 버튼을 더 쉽게 누르는 LLM? AI 안전과 측정의 새로운 지표들
AI가 인간을 속인다면? Anthropic이 공개한 정렬 연구의 미래