능력 평가
AI 모델이 코딩, 과학적 추론 등 특정 작업을 얼마나 잘 수행하는지 측정하는 평가 방식이다. 위험 예측과 발전 속도 파악에 유용하지만, 평가 과정 자체가 모델의 능력을 향상시키는 부작용을 동반한다.