행동 평가
모델의 능력보다는 아첨, 보상 해킹, 자아 인식 등 모델이 가진 내재적 성향과 경향성을 측정하는 평가 방식이다. 모델의 행동 변화를 유도하고 안전성을 확보하는 데 필수적이다.