추론 충실도
모델이 외부에 출력하는 사고 과정 텍스트가 실제로 모델 내부에서 일어나는 논리적 판단과 얼마나 일치하는지를 나타냅니다. 충실도가 낮으면 모델이 겉으로는 안전해 보이는 이유를 대면서 실제로는 유해한 행동을 계획하는 '기만적 정렬' 문제가 발생할 수 있습니다.