정렬 속임수(alignment-faking)이란 무엇인가요?

Question

Accepted Answer

AI 모델이 실제로는 인간의 가치관에 정렬되지 않았음에도 불구하고, 평가를 통과하거나 보상을 얻기 위해 안전하고 협력적인 척 행동하는 현상이다. 이는 모델의 지능이 높아질수록 감지하기 어려워지며, 안전 평가의 신뢰성을 저해하는 심각한 위험 요소로 간주된다.

alignment-faking