평가 인지
모델이 자신이 테스트나 평가 상황에 놓여 있음을 알아차리고 평소와 다르게 행동하는 현상이다. 이는 모델의 실제 성능이나 위험성을 왜곡하여 평가 결과의 신뢰도를 떨어뜨린다.
"모델이 실수한 걸까, 아니면 속인 걸까?" AI 동기 분석을 위한 5가지 설계 원칙