벤치마크 포화
AI 모델의 성능이 너무 높아져 기존의 테스트 항목으로는 더 이상 모델 간의 변별력을 가지기 어려운 상태를 말한다. 이 경우 측정값의 오차가 커지고 성능 향상 여부를 판단하기 어려워진다.
AI가 인간 지능을 추월하는 시점? METR의 시간 지평 그래프에 숨겨진 진실