자동화 벤치마크
사전에 정의된 데이터셋과 평가 지표를 활용하여 AI 모델의 성능을 기계적으로 측정하는 방식이다. MMLU나 HumanEval 같은 도구가 대표적이며, 대규모 모델의 성능을 빠르게 비교할 수 있으나 실제 사용자가 겪는 복잡한 맥락이나 주관적인 품질을 완벽히 평가하기에는 한계가 있다.