reasoning-faithfulness
추론 충실도
모델이 외부에 출력하는 사고 과정 텍스트가 실제로 모델 내부에서 일어나는 논리적 판단과 얼마나 일치하는지를 나타냅니다. 충실도가 낮으면 모델이 겉으로는 안전해 보이는 이유를 대면서 실제로는 유해한 행동을 계획하는 '기만적 정렬' 문제가 발생할 수 있습니다.
추론 충실도
모델이 외부에 출력하는 사고 과정 텍스트가 실제로 모델 내부에서 일어나는 논리적 판단과 얼마나 일치하는지를 나타냅니다. 충실도가 낮으면 모델이 겉으로는 안전해 보이는 이유를 대면서 실제로는 유해한 행동을 계획하는 '기만적 정렬' 문제가 발생할 수 있습니다.