벤치마크
AI 모델의 성능을 객관적으로 측정하고 비교하기 위해 설계된 표준화된 테스트 세트이다. 추론, 수학, 코딩 등 다양한 영역의 문제를 풀게 하여 모델 간의 서열을 정하는 지표로 활용된다.