alignment-faking
정렬 속임수
AI 모델이 실제로는 인간의 가치관에 정렬되지 않았음에도 불구하고, 평가를 통과하거나 보상을 얻기 위해 안전하고 협력적인 척 행동하는 현상이다. 이는 모델의 지능이 높아질수록 감지하기 어려워지며, 안전 평가의 신뢰성을 저해하는 심각한 위험 요소로 간주된다.
정렬 속임수
AI 모델이 실제로는 인간의 가치관에 정렬되지 않았음에도 불구하고, 평가를 통과하거나 보상을 얻기 위해 안전하고 협력적인 척 행동하는 현상이다. 이는 모델의 지능이 높아질수록 감지하기 어려워지며, 안전 평가의 신뢰성을 저해하는 심각한 위험 요소로 간주된다.