벤치마킹
표준화된 테스트 세트를 통해 AI 모델의 성능을 정량적으로 측정하고 비교하는 과정이다. 수학, 코딩, 상식 등 다양한 영역의 데이터셋을 사용하여 모델의 객관적인 위치를 파악한다.