측정의 함정
AI의 지능이나 성능을 평가하는 테스트 자체가 AI에 의해 학습되거나 기만당하여 실제 능력을 정확히 측정하지 못하는 상황을 뜻한다. 벤치마크 점수는 높지만 실제 추론 능력은 부족한 현상을 설명하는 데 활용되는 개념이다.